Przez ostatnie lata w branży AI panował trend „większe znaczy lepsze”.
Model za modelem, giganci technologii jak OpenAI czy Google tworzyli coraz bardziej rozbudowane algorytmy. Zapowiadało się na epokę „skalowania bez końca”, ale teraz wygląda na to, że wielkie modele osiągnęły swoje granice. Czy aby na pewno?
Zamiast inwestować miliony w coraz większe modele, firmy zmieniają podejście. Co jest teraz na topie? Test-time compute, czyli optymalizacja pracy modelu w czasie rzeczywistym. Brzmi skomplikowanie? Nie aż tak – chodzi o to, żeby model myślał na bieżąco, jakby „przetrawiał” problem, zamiast rzucać szybkim wynikiem. Dzięki temu sztuczna inteligencja będzie rozważać różne opcje i wybierać tę najlepszą, zamiast tylko strzelać jednym rozwiązaniem.
Czy modele AI skazane są na zadyszkę?
Ilya Sutskever, współzałożyciel OpenAI, teraz szef Safe Superintelligence, mówi, że wracamy do epoki odkryć. Co to oznacza? Wygląda na to, że branża AI próbuje znaleźć „to coś”, co popchnie ją dalej. Bo po co wielkie modele, skoro kosztują fortunę i mogą działać tylko z użyciem superkomputerów? Poza tym, kto chce czekać miesiącami, żeby dowiedzieć się, czy nowy model faktycznie działa?
A co z Nvidią?
Przejście na test-time compute może odbić się na pozycji Nvidii. Dotąd tajwańczycy dominowali na rynku sprzętu do trenowania modeli, ale wraz z pojawieniem się innych firm – na przykład Groq – specjalizujących się w alternatywnych procesorach, Nvidia może poczuć oddech konkurencji na karku. Chociaż… ich karty wciąż świetnie sobie radzą, a firma przeżywa rozkwit na rynkach.
I co dalej?
Czy zmiana podejścia oznacza koniec „gigantycznych” modeli? Nie do końca. OpenAI wciąż pracuje nad usprawniainem GPT-4 poprzez coraz to nowsze metody interakcji. Niedawno jednak, wprowadziło o1 – model, który ma być bardziej precyzyjny w zakresie matematyki niż poprzednie wersje, a przy tym bardziej oszczędny energetycznie. Chodzi więc może o równowagę – trochę skali, trochę nowego paradygmatu.
Ostatecznie… czy AI musi być „duże”?
Wszystko wskazuje na to, że odpowiedzią może być nie „więcej mocy”, a „mądrzejsza moc”. Dlaczego? Bo co z tego, że model jest wielki, jeśli nie potrafi logicznie rozwiązywać problemów? Dochodzimy do sufitu organicznych danych – czy do progresu potrzeba tylko, i aż czasu?