W świecie sztucznej inteligencji benchmarki odgrywają kluczową rolę przy porównywaniu możliwości modeli. Ostatnio debata na temat wyników modelu Grok 3, prezentowanych przez firmę xAI, wzbudziła spore emocje w środowisku ekspertów. Czy prezentowane wyniki były rzeczywiście mylące? Zanurzmy się w temat, analizując poszczególne aspekty tego sporu.
Czym są benchmarki AI?
Benchmarki to testy, które pozwalają na ocenę wydajności modeli AI w różnych zadaniach – od analizy języka naturalnego po rozwiązywanie skomplikowanych problemów matematycznych. W praktyce służą one nie tylko do porównań, ale także do lepszego zrozumienia mocnych i słabych stron poszczególnych rozwiązań. W ostatnich latach coraz większą uwagę przykuwały testy, takie jak AIME 2025, które skupiają się na ocenie zdolności matematycznych modeli.
Test AIME 2025 stanowi zbiór wymagających zadań matematycznych, które często wykorzystuje się do badania umiejętności rozumienia i rozwiązywania problemów przez systemy AI. Mimo że niektórzy eksperci kwestionują jego uniwersalność jako benchmarku, AIME 2025 (oraz wcześniejsze wersje tego testu) pozostają popularnym narzędziem do sprawdzania zdolności modeli w kontekście matematycznym.
Kontrowersje wokół benchmarku Grok 3
Firma xAI opublikowała na swoim blogu wykres, który przedstawiał wyniki dwóch wariantów modelu Grok 3 – Grok 3 Reasoning Beta oraz Grok 3 mini Reasoning – na teście AIME 2025. Według opublikowanych danych, oba warianty miały przewyższać najlepszy dostępny model konkurencyjnej firmy. Jednak krytycy szybko zwrócili uwagę na istotny szczegół: wykres nie zawierał wyniku konkurencyjnego modelu przy zastosowaniu metryki cons@64.
Co to jest cons@64?
Metryka cons@64 (skrót od „consensus@64”) polega na tym, że model ma 64 próby odpowiedzi na każde zadanie, a ostateczna odpowiedź przyjmowana jest na podstawie najczęściej powtarzanej odpowiedzi. W praktyce oznacza to, że benchmarki wykorzystujące cons@64 mogą znacząco poprawić ostateczny wynik modelu. Dlatego pominięcie wyników przy tej metryce w porównaniu modeli może prowadzić do wrażenia, że jeden model radzi sobie lepiej niż w rzeczywistości.
Głos ekspertów – co mówią specjaliści?
W dyskusji na platformach społecznościowych pojawiły się różne opinie. Jednym z głosów był Igor Babushkin, współzałożyciel xAI. W swoim komentarzu na X (dawniej Twitter) stwierdził, że OpenAI publikowało podobnie mylące wykresy benchmarkowe w przeszłości.
Taki komentarz miał na celu zwrócenie uwagi, że problem nie dotyczy tylko jednego modelu czy firmy, ale jest szerszym zagadnieniem w branży AI.
Równocześnie badacz sztucznej inteligencji Nathan Lambert podkreślił, że być może najważniejszym aspektem pozostaje nie tylko sam wynik, ale także koszt obliczeniowy i finansowy, jaki musiał ponieść każdy model, aby osiągnąć swój poziom wydajności. Warto zwrócić uwagę, że informacje o kosztach są często pomijane w publicznych benchmarkach, co utrudnia pełną ocenę wartości danego rozwiązania.
Znaczenie transparentności w prezentacji wyników
W dzisiejszych czasach, kiedy konkurencja w dziedzinie AI rośnie, transparentność i rzetelność w prezentowaniu wyników stają się kluczowymi elementami budowania zaufania. Niezależne porównania i kompletne dane, takie jak wyniki przy zastosowaniu konsensusu 64-krotnego, umożliwiają bardziej uczciwą ocenę możliwości modeli.
Źródło: TechCrunch
Photo by Pawel Czerwinski on Unsplash