31 stycznia 2025 roku OpenAI zaprezentowało model o3-mini – najnowsze dzieło w serii dedykowanej logicznemu wnioskowaniu. To pierwszy mały model AI, który łączy niski koszt, szybkość działania i specjalizację w dziedzinach STEM (nauka, technologia, inżynieria, matematyka). Według twórców, o3-mini dorównuje wydajnością większym modelom, takim jak OpenAI o1, ale generuje odpowiedzi o 24% szybciej niż jego poprzednik, o1-mini. Testy wykazały, że w trybie „medium” radzi sobie z zadaniami na poziomie konkursów matematycznych AIME 2024 z dokładnością 83,6%, a z pytaniami naukowymi na poziomie doktoranckim (GPQA Diamond) osiąga 77% trafności.
Szybszy i bardziej wydajny niż kiedykolwiek
O3-mini to nie tylko moc obliczeniowa, ale i elastyczność. Deweloperzy mogą dostosować tryb pracy modelu do swoich potrzeb: niski, średni lub wysoki poziom zaangażowania. W trybie „high” model rozwiązuje ponad 32% problemów badawczych z matematyki (FrontierMath) już przy pierwszej próbie. Dla porównania, średni czas generowania odpowiedzi wynosi zaledwie 7,7 sekundy – to o 39% mniej błędów w trudnych zadaniach niż w przypadku o1-mini. Jak podkreśla zespół OpenAI: Testy pokazały, że o3-mini dostarcza bardziej precyzyjnych i klarownych odpowiedzi, zwłaszcza w dziedzinach ścisłych
.
Uzupełnianie zadań matematycznych (AIME 2024)

Bezpieczeństwo na pierwszym miejscu
OpenAI nie zapomina o ryzyku związanym z AI. O3-mini przeszedł rygorystyczne testy bezpieczeństwa, w tym ewaluacje „red teaming” i analizy zgodności z wytycznymi etycznymi. Dzięki technice deliberative alignment, model nauczył się analizować pytania pod kątem potencjalnych zagrożeń przed udzieleniem odpowiedzi. W wynikach badań czytamy: O3-mini znacząco przewyższa GPT-4o w testach odporności na próby zhakowania
. Szczegóły tych zabezpieczeń dostępne są w systemowej karcie modelu.
Zadania na poziomie doktoranta (GPQA Diamond)

Dostępność i nowe możliwości dla użytkowników
Od dziś o3-mini zastępuje o1-mini w interfejsie ChatGPT dla subskrybentów Plus, Team i Pro, oferując trzykrotnie wyższe limity (150 wiadomości dziennie). Bezpłatni użytkownicy po raz pierwszy zyskują dostęp do modelu wnioskującego – wystarczy wybrać opcję „Tryb logiczny” w kompozyktorze wiadomości. Dla developerów kluczowe są nowe funkcje: strukturalne odpowiedzi, wywoływanie funkcji i integracja z wyszukiwarką. Model jest już dostępny w API Chat Completions, Assistants API i Batch API dla wybranych klientów.
Benchmark FrontierMath

Zadania z zakresu programowania (Codeforces)

Inżynieria Oprogramowania (SWE-bench Verified)

Co przyniesie przyszłość? OpenAI nie zwalnia tempa
Premiera o3-mini to kolejny krok w misji OpenAI, by uczynić zaawansowaną sztuczną inteligencję przystępną cenowo
. Firma deklaruje, że od czasu debiutu GPT-4 koszt przetwarzania tokenów spadł o 95%, bez utraty jakości. W planach jest integracja wyszukiwania z modelami wnioskującymi oraz dalsza optymalizacja pod kątem niszowych zastosowań. Jak zapowiadają twórcy: O3-mini to dopiero początek. Pracujemy nad rozwiązaniami, które łączą inteligencję, wydajność i bezpieczeństwo na masową skalę
.
Źródło: OpenAI