Sztuczna inteligencja już dziś pisze kod, testuje aplikacje i sugeruje rozwiązania. Ale czy rzeczywiście może zastąpić programistów w codziennej pracy? Nowe wyzwanie – K Prize – rzuca cień wątpliwości na optymistyczne wizje AI jako pełnoprawnych inżynierów oprogramowania.
K Prize to wyzwanie inne niż wszystkie
K Prize to nowe, wieloetapowe wyzwanie stworzone przez Laude Institute we współpracy z jednym z założycieli Databricks i Perplexity – Andym Konwinskim. Jego cel? Sprawdzić, jak modele AI radzą sobie z rzeczywistymi problemami programistycznymi, które trafiają na GitHuba.
Pierwsze wyniki są… zaskakujące. Zwycięzca to brazylijski inżynier promptów, Eduardo Rocha de Andrade. Zdobył on nagrodę w wysokości 50 000 dolarów, poprawnie rozwiązując zaledwie 7,5% zadań. Tak – nie siedemdziesiąt, tylko siedem przecinek pięć (sic!).
Benchmark na poważnie
Dlaczego tak niskie wyniki są powodem do dumy? Bo – jak twierdzi Konwinski – benchmarki mają być trudne, jeśli mają coś znaczyć. I w tym przypadku udało się stworzyć test, który naprawdę odsiewa modele, które są tylko „dobrze wytrenowane na starych danych”.
K Prize działa w trybie offline, z ograniczonymi zasobami obliczeniowymi, co faworyzuje mniejsze, otwarte modele, a nie gigantów z korporacyjnych laboratoriów. To świadomy wybór, który „wyrównuje szanse” – i daje szansę społeczności open-source na konkurowanie z największymi graczami.
Czym różni się K Prize od SWE-Bench?
W świecie AI i kodowania istnieje już popularny benchmark – SWE-Bench, który także korzysta z GitHuba. Jednak K Prize idzie o krok dalej:
- zamiast statycznego zestawu zadań, korzysta z nowych zgłoszeń (issues) z GitHuba, dzięki czemu modele nie mogą się ich wcześniej „nauczyć”,
- każde zgłoszenie pochodzi po terminie oddania modeli, co eliminuje ryzyko tzw. kontaminacji,
- to test bardziej „na żywo” i odporny na optymalizacje tylko pod kątem wyników.
Dla porównania – na SWE-Bench modele osiągają obecnie do 75% na łatwiejszej wersji testu. W K Prize najwyższy wynik to 7,5%. Przepaść, która mówi sama za siebie.
1 milion dolarów za przełom
Co dalej? Konwinski ogłosił, że przeznaczy milion dolarów nagrody dla pierwszego open-source’owego modelu, który przekroczy 90% skuteczności w tym teście. To jasny sygnał dla branży: „Jeśli chcecie mówić o AI jako o realnym inżynierze oprogramowania – pokażcie to w działaniu.”
Dlaczego to ma znaczenie?
W ostatnich miesiącach narasta entuzjazm wobec AI zdolnej do zastępowania ludzi w różnych zawodach – od lekarzy, przez prawników, po programistów. Ale K Prize działa jak kubeł zimnej wody.
Jak zauważył sam Konwinski:
„Jeśli nie potrafimy przeskoczyć nawet 10% w realistycznym benchmarku programistycznym – to dla mnie poważny sygnał ostrzegawczy.”
Eksperci, tacy jak Sayash Kapoor z Uniwersytetu Princeton, zauważają, że bez nowych, bardziej odpornych na manipulacje testów, nie jesteśmy w stanie ocenić realnych możliwości AI. Ich zdaniem to właśnie takie inicjatywy jak K Prize mogą przełamać impas i pokazać, co naprawdę potrafią modele językowe w praktyce.
Co to oznacza dla branży IT?
Dla firm pracujących ze sztuczną inteligencją to ważna lekcja. Rozwiązania oparte na sztucznej inteligencji są coraz lepsze, ale ciągle potrzebują wsparcia człowieka, zwłaszcza tam, gdzie liczy się kreatywność, kontekst i zdolność do adaptacji.
Dla developerów – to dowód, że AI to narzędzie, nie konkurencja. Przynajmniej na razie.
Źródło: TechCrunch
