OpenAI o3-mini: AI wkracza do nauk ścisłych!

31 stycznia 2025 roku OpenAI zaprezentowało model o3-mini – najnowsze dzieło w serii dedykowanej logicznemu wnioskowaniu. To pierwszy mały model AI, który łączy niski koszt, szybkość działania i specjalizację w dziedzinach STEM (nauka, technologia, inżynieria, matematyka). Według twórców, o3-mini dorównuje wydajnością większym modelom, takim jak OpenAI o1, ale generuje odpowiedzi o 24% szybciej niż jego poprzednik, o1-mini. Testy wykazały, że w trybie „medium” radzi sobie z zadaniami na poziomie konkursów matematycznych AIME 2024 z dokładnością 83,6%, a z pytaniami naukowymi na poziomie doktoranckim (GPQA Diamond) osiąga 77% trafności.

Szybszy i bardziej wydajny niż kiedykolwiek

O3-mini to nie tylko moc obliczeniowa, ale i elastyczność. Deweloperzy mogą dostosować tryb pracy modelu do swoich potrzeb: niski, średni lub wysoki poziom zaangażowania. W trybie „high” model rozwiązuje ponad 32% problemów badawczych z matematyki (FrontierMath) już przy pierwszej próbie. Dla porównania, średni czas generowania odpowiedzi wynosi zaledwie 7,7 sekundy – to o 39% mniej błędów w trudnych zadaniach niż w przypadku o1-mini. Jak podkreśla zespół OpenAI: Testy pokazały, że o3-mini dostarcza bardziej precyzyjnych i klarownych odpowiedzi, zwłaszcza w dziedzinach ścisłych.

Uzupełnianie zadań matematycznych (AIME 2024)

Bezpieczeństwo na pierwszym miejscu

OpenAI nie zapomina o ryzyku związanym z AI. O3-mini przeszedł rygorystyczne testy bezpieczeństwa, w tym ewaluacje „red teaming” i analizy zgodności z wytycznymi etycznymi. Dzięki technice deliberative alignment, model nauczył się analizować pytania pod kątem potencjalnych zagrożeń przed udzieleniem odpowiedzi. W wynikach badań czytamy: O3-mini znacząco przewyższa GPT-4o w testach odporności na próby zhakowania. Szczegóły tych zabezpieczeń dostępne są w systemowej karcie modelu.

Zadania na poziomie doktoranta (GPQA Diamond)

Dostępność i nowe możliwości dla użytkowników

Od dziś o3-mini zastępuje o1-mini w interfejsie ChatGPT dla subskrybentów Plus, Team i Pro, oferując trzykrotnie wyższe limity (150 wiadomości dziennie). Bezpłatni użytkownicy po raz pierwszy zyskują dostęp do modelu wnioskującego – wystarczy wybrać opcję „Tryb logiczny” w kompozyktorze wiadomości. Dla developerów kluczowe są nowe funkcje: strukturalne odpowiedzi, wywoływanie funkcji i integracja z wyszukiwarką. Model jest już dostępny w API Chat Completions, Assistants API i Batch API dla wybranych klientów.

Benchmark FrontierMath

Zadania z zakresu programowania (Codeforces)

Inżynieria Oprogramowania (SWE-bench Verified)

Co przyniesie przyszłość? OpenAI nie zwalnia tempa

Premiera o3-mini to kolejny krok w misji OpenAI, by uczynić zaawansowaną sztuczną inteligencję przystępną cenowo. Firma deklaruje, że od czasu debiutu GPT-4 koszt przetwarzania tokenów spadł o 95%, bez utraty jakości. W planach jest integracja wyszukiwania z modelami wnioskującymi oraz dalsza optymalizacja pod kątem niszowych zastosowań. Jak zapowiadają twórcy: O3-mini to dopiero początek. Pracujemy nad rozwiązaniami, które łączą inteligencję, wydajność i bezpieczeństwo na masową skalę.

Źródło: OpenAI

Najnowsze

OpenAI ogłosił wprowadzenie GPT-5.1

Jak AI zmienia pracę programistów? Co dalej z juniorami? [PODCAST 🎙️]

Lumen stawia na AI Palantira, by zbudować nową cyfrową infrastrukturę

OpenAI o3-mini: AI wkracza do nauk ścisłych!

Jak włączyć i korzystać z wtyczek do ChatGPT – poradnik krok po kroku

Wszystko, co musisz wiedzieć o Midjourney

Co to jest ChatGPT? – i inne najczęściej zadawane pytania

Najnowsze posty

OpenAI ogłosił wprowadzenie GPT-5.1

Lumen stawia na AI Palantira, by zbudować nową cyfrową infrastrukturę

Edge Copilot kontra Atlas: czy nadchodzi era przeglądarek z AI?

Najnowsze

OpenAI o3-mini: AI wkracza do nauk ścisłych!

Szybszy i bardziej wydajny niż kiedykolwiek

Uzupełnianie zadań matematycznych (AIME 2024)

Bezpieczeństwo na pierwszym miejscu

Zadania na poziomie doktoranta (GPQA Diamond)

Dostępność i nowe możliwości dla użytkowników

Benchmark FrontierMath

Zadania z zakresu programowania (Codeforces)

Inżynieria Oprogramowania (SWE-bench Verified)

Co przyniesie przyszłość? OpenAI nie zwalnia tempa

Dziękujemy!