Podczas swojej niedawnej podróży do Europy, Sam Altman podzielił się informacjami dotyczącymi aktualnego statusu roadmapy OpenAI. Wydaje się, że niedostatek mocy obliczeniowej spowalnia krótkoterminowe plany firmy. Prowadzi to do wielu skarg klientów dotyczących niezawodności API OpenAI.
Konsekwencje niedoboru GPU dla OpenAI
Jak stwierdził Altman, niedobór GPU także ogranicza API dla fine-tuning modeli. OpenAI jeszcze nie zastosowało bardziej efektywnych metod dostosowywania, takich jak low-rank adaptation (LoRA). Te metody okazały się bardzo przydatne dla społeczności open-source.
Niedostatek mocy obliczeniowej sprawia, że wersja GPT-4 z 32k oknem kontekstowym nie jest jeszcze gotowa do wdrożenia. Z kolei dostęp do prywatnych modeli z budżetami przekraczającymi 100 000 dolarów jest ograniczony. Niemniej jednak, Altman wierzy, że okno kontekstowe do miliona tokenów jest realistycznym celem na ten rok.
Co ciekawe, Altman zauważył, że wszystko poza tym wymagałoby rozwiązania problemu skalowania “O(n^2)” dla uwagi modelu transformera: w miarę jak rozmiar okna kontekstowego rośnie, ilość wymaganych obliczeń rośnie proporcjonalnie do kwadratu liczby tokenów. Podwojenie rozmiaru okna kontekstowego zwiększa obliczenia czterokrotnie, potrojenie – dziewięciokrotnie, itd. Rozwiązanie tego problemu wymagałoby naukowego przełomu.
Priorytet OpenAI: Redukcja kosztów GPT-4
Zminimalizowanie nakładów związanych z obliczeniami GPT-4 to priorytet dla OpenAI. Już od wersji GPT-3 do GPT-3.5 i ChatGPT, OpenAI zdołało istotnie zmniejszyć wymagane zasoby na procesy obliczeniowe. Korzyści odczuli klienci, którzy zapłacili zdecydowanie mniej za usług API.
Nowe modele i ulepszenia API w najbliższym roku
Najnowsze modele powinny być dostępne w tym roku za pośrednictwem API do fine-tuning, jak również nowego API, które potrafi zapamiętać poprzednie rozmowy. Dzięki temu nie muszą one być ponownie wysyłane przy każdym nowym wywołaniu API. To pozwoli na dalsze obniżenie kosztów.
Wtyczki ChatGPT raczej nie zostaną wdrożone do API
Co więcej, Altman twierdzi, że wtyczki ChatGPT raczej nie zostaną wdrożone do API. Uważa, że ChatGPT w aplikacjach jest bardziej interesujące niż aplikacje w ChatGPT. Według niego pluginom, z wyjątkiem przeglądania, wciąż brakuje dopasowania do rynku.
W tym kontekście, Altman zapewnia, że OpenAI nie planuje żadnych innych produktów poza ChatGPT. Jak twierdzi woleliby nie konkurować ze swoją społecznością deweloperów. Wizja dla flagowego chatbota to optymalizacja API i dostarczenie społeczności inteligentnego asystenta.
Multimodalność – cel na 2024 rok
W nadchodzącym roku, OpenAI umieściło multimodalność na swojej agendzie. Multimodalność oznacza, że model AI może przetwarzać zarówno obrazy, jak i tekst, a w przyszłości być może również dźwięk, video czy modele 3D.
Już podczas startu GPT-4 OpenAI pokazało, że model na zasadzie może przetwarzać obrazy, tzn. generować tekst lub kod do obrazów lub na podstawie obrazów. Z powodu wspomnianego wcześniej ograniczenia GPU, ta funkcja nie jest obecnie dostępna.
Czy OpenAI pracuje nad dodatkowymi modelami multimodalnymi?
Nie wiadomo, czy OpenAI pracuje nad dodatkowymi modelami multimodalnymi. Oczekuje się, że GPT-5 doda więcej multimodalności, ale nie rozpocznie treningów na kolejne sześć miesięcy, według Altmana. Google Deepmind może zatem mieć przewagę w multimodalności dzięki swojemu modelowi Gemini.
Czy to kres epoki gigantycznych modeli AI?
Altman skomentował także swoje niedawne oświadczenie o “końcu ery gigantycznych modeli AI”, mówiąc, że OpenAI nadal będzie próbować trenować większe modele i że prawo skalowania nadal obowiązuje, tzn., większe modele obiecują więcej wydajności. Niemniej jednak, modele nie będą już podwajać się lub potrajać co roku, gdyż nie jest to zrównoważone.
Wnioski i przyszłość OpenAI
Jak widać, droga OpenAI nie jest prosta. Brakuje mocy obliczeniowej i GPU, co powoduje ograniczenia w rozwoju i wdrażaniu technologii. Niemniej jednak, pomimo tych wyzwań, OpenAI nadal koncentruje się na optymalizacji, redukcji kosztów i przystosowaniu swoich produktów do potrzeb społeczności deweloperów.
Również perspektywa rozwoju multimodalności, choć odłożona na bok do 2024 roku, jest obiecująca. Jeśli OpenAI zdoła sprostać tym wyzwaniom, przyszłość może przynieść wiele innowacyjnych rozwiązań.
Źródło: the-decoder.com
1 Comment
Pingback: Boom na Rynku AI: Bank UBS przewiduje przychody na poziomie 420 mld USD do 2027