W ostatnią środę platformy OpenAI, takie jak ChatGPT, generator wideo Sora oraz API dla programistów, doświadczyły jednej z najpoważniejszych awarii w historii firmy. Problemy rozpoczęły się około godziny 15:00 czasu pacyficznego i trwały około trzech godzin, zanim udało się przywrócić wszystkie usługi. W analizie powypadkowej opublikowanej w czwartek wieczorem OpenAI wskazało, że za awarię odpowiada nowa usługa telemetryczna.
Co doprowadziło do awarii?
OpenAI podkreśla, że awaria nie była wynikiem incydentu bezpieczeństwa ani niedawnego wdrożenia nowych produktów. Problem leżał w nowej usłudze telemetrycznej, wdrożonej w środę w celu zbierania metryk Kubernetes. Kubernetes to otwartoźródłowy program zarządzający kontenerami, umożliwiający uruchamianie aplikacji w odizolowanych środowiskach.
Przeczytaj także: Awaria ChatGPT – co zrobić, gdy ChatGPT nie działa?
Jak doszło do problemu?
„Usługi telemetryczne mają bardzo szeroki zakres działania, co spowodowało, że konfiguracja nowej usługi nieintencjonalnie wywołała intensywne operacje API Kubernetes” – napisał OpenAI w raporcie powypadkowym. W efekcie serwery API Kubernetes zostały przeciążone, co doprowadziło do problemów z kontrolą kluczowych zasobów w większości dużych klastrów Kubernetes wykorzystywanych przez OpenAI.
Jednym z kluczowych problemów była awaria systemu rozwiązywania nazw DNS, który odpowiada za konwersję adresów IP na nazwy domen. DNS pozwala, by użytkownicy wpisywali np. „Google.com” zamiast adresu IP. Niestety, system buforowania DNS w OpenAI opóźnił wykrycie pełnego zakresu problemu, co umożliwiło kontynuację wdrożenia usługi telemetrycznej pomimo narastających trudności.
Jak OpenAI radziło sobie z kryzysem?
OpenAI twierdzi, że problem udało się zidentyfikować kilka minut przed tym, jak klienci zaczęli doświadczać trudności. Jednak proces naprawy był znacząco opóźniony ze względu na przeciążone serwery Kubernetes. Firma opisała sytuację jako wynik wielu jednoczesnych awarii systemów i procesów, które wchodziły ze sobą w nieprzewidywalne interakcje.
„Nasze testy nie wychwyciły wpływu zmiany na kontrolę klastrów Kubernetes, a proces naprawy był bardzo powolny z powodu ograniczonego dostępu” – przyznało OpenAI.
Kroki zapobiegawcze
Aby uniknąć podobnych sytuacji w przyszłości, OpenAI planuje wprowadzenie szeregu środków zaradczych, w tym:
- Usprawnienie fazowego wdrażania zmian z bardziej zaawansowanym monitorowaniem infrastruktury.
- Wdrożenie nowych mechanizmów umożliwiających inżynierom OpenAI dostęp do serwerów API Kubernetes w każdej sytuacji.
- Lepsze procedury testowania wpływu nowych usług na kluczowe elementy infrastruktury.
Słowo od OpenAI
„Przepraszamy za wpływ, jaki ten incydent miał na wszystkich naszych klientów – od użytkowników ChatGPT, przez programistów, po firmy korzystające z naszych produktów” – napisało OpenAI. „Zawiedliśmy nasze własne oczekiwania.”
Awaria ta pokazuje, jak złożoność nowoczesnych systemów technologicznych może prowadzić do nieprzewidywalnych problemów. Jednak szybka reakcja i otwartość w komunikacji z klientami pozwoliły OpenAI utrzymać zaufanie użytkowników.
Źródło: TechCrunch | OpenAI
Zdjęcie: Dall-E