OpenAI ogłosił wprowadzenie o3 – zaawansowanego modelu AI, który ustanawia nowe standardy w rozwiązywaniu złożonych zadań wymagających logicznego myślenia. Oficjalna premiera pełnej wersji jest planowana na początek 2025 roku, poprzedzona debiutem ekonomicznej wersji o3 Mini w styczniu.
Model o3, podobnie jak jego poprzednik o1, wykorzystuje zaawansowane procesy analizy i rozwiązywania problemów, wymagając większych zasobów obliczeniowych. Jednak rezultaty, jakie osiąga, są imponujące i przewyższają wszystko, co dotąd osiągnięto w dziedzinie AI.
Rekordowe wyniki modelu o3 w kluczowych benchmarkach
Model o3 zdobył 75,7% na wskaźniku ARC Prize przy standardowej mocy obliczeniowej, a po zwiększeniu zasobów osiągnął 87,5%. ARC jest jednym z kluczowych benchmarków oceniających postępy w kierunku ogólnej inteligencji sztucznej (AGI).
W wyzwaniu matematycznym Frontier Math Benchmark stworzonym przez EpochAI, model o3 osiągnął wynik 25,2%, co stanowi znaczną poprawę w porównaniu z wcześniejszymi systemami, które nie przekraczały 2%. Twórcy benchmarku określili te wyniki jako “znaczący skok” i zapowiedzieli przygotowanie bardziej wymagających testów.
Dodatkowo, model o3 zanotował 20-procentowy wzrost skuteczności w zadaniach związanych z programowaniem oprogramowania (71,7%) oraz uzyskał wynik 2727 punktów w rankingu Codeforces, wyprzedzając nawet głównego naukowca OpenAI, który osiągnął 2665 punktów.
W benchmarku GPT Diamond Benchmark, dotyczącym pytań na poziomie doktoranckim, model osiągnął 87,7%, co znacznie przewyższa średni wynik ekspertów w swoich dziedzinach, wynoszący około 70%.
Innowacyjny proces rozwiązywania problemów przez model o3
Jak wskazuje François Chollet, twórca benchmarku ARC, o3 wyróżnia się metodą podejścia do zadań. Tradycyjne modele AI opierają się na odtwarzaniu wzorców, natomiast o3 tworzy nowe programy w czasie rzeczywistym, aby rozwiązać nieznane dotąd problemy. Ten proces przypomina metodę używaną przez program AlphaZero od DeepMind, polegającą na systematycznym przeszukiwaniu możliwych rozwiązań.
Jednak taka precyzyjna analiza wiąże się z dużymi kosztami. Wersja o wysokiej efektywności kosztuje około 20 USD za zadanie, co daje 2012 USD za 100 testów lub 6677 USD za pełen zestaw 400 publicznych zadań. Natomiast wersja o niższej efektywności wymaga 172 razy większej mocy obliczeniowej, przetwarzając od 33 do 111 milionów tokenów na jedno zadanie.
Granice AGI
Pomimo spektakularnych wyników, o3 wciąż nie jest AGI. System nadal ma trudności z niektórymi podstawowymi zadaniami, które dla ludzi są trywialne. Chollet podkreśla, że prawdziwe AGI będzie możliwe dopiero wtedy, gdy AI przestanie mieć problemy z zadaniami łatwymi dla ludzi.
Aby jeszcze bardziej podnieść poprzeczkę, w 2025 roku wprowadzone zostanie ARC-AGI-2 – nowy benchmark. Wstępne testy wskazują, że model o3 osiągnie na nim zaledwie około 30%, podczas gdy ludzie bez specjalistycznego przeszkolenia rozwiązują 95% zadań.
Premiera o3 Mini już w styczniu 2025
Wersja o3 Mini pojawi się w sprzedaży pod koniec stycznia 2025 roku. Będzie ona dostępna w trzech trybach szybkości (niski, średni i wysoki), osiągając lepsze wyniki niż o1 już przy ustawieniach średnich. Podczas pokazu na żywo OpenAI zademonstrował możliwości o3 Mini, w tym generowanie i wykonywanie kodu, a także tworzenie interfejsów użytkownika dla samooceny danych.
Bezpieczeństwo przede wszystkim
Przed premierą OpenAI uruchomi program testów bezpieczeństwa, z aplikacjami otwartymi do 10 stycznia. Dodatkowo firma wprowadzi nowy podejście do bezpieczeństwa o nazwie “Deliberative Alignment,” wykorzystujące zdolności rozumowania modelu do ustalania lepszych granic bezpieczeństwa.
Nazwa modelu, o3, została wybrana po pominięciu “o2” ze względu na kolizję z nazwą firmy telekomunikacyjnej O2.
Źródło: The-decoder