Najnowsze badania opublikowane przez Apple rzucają kubeł zimnej wody na entuzjazm związany ze zdolnościami rozumowania przez sztuczną inteligencję. W publikacji zatytułowanej “The Illusion of Thinking” (Iluzja Myślenia) gigant z Cupertino pokazuje, że nawet najbardziej zaawansowane modele AI załamują się i “poddają”, gdy stają przed naprawdę złożonymi problemami.
Jak Apple zdemaskowało “myślenie” sztucznej inteligencji?
Badacze Apple nie skupili się na typowych benchmarkach, które mogą być skażone danymi treningowymi. Zamiast tego, postanowili przetestować tzw. Duże Modele Rozumujące (Large Reasoning Models, LRM) – takie jak Claude 3.7 Sonnet, DeepSeek R1 czy modele z serii “o” od OpenAI – w kontrolowanym środowisku klasycznych łamigłówek logicznych.
Do testów wykorzystano problemy, które wymagają planowania i wieloetapowego rozumowania:
- Wieża z Hanoi: Przenoszenie krążków między palikami bez kładzenia większego na mniejszym.
- Skaczące pionki (Checker Jumping): Przestawianie pionków na wolne miejsca według określonych zasad.
- Świat klocków (Blocks World): Układanie klocków w określoną konfigurację.
- Problem przeprawy przez rzekę: Klasyczna zagadka z przewożeniem postaci lub przedmiotów na drugi brzeg z uwzględnieniem ograniczeń.
Kluczem do eksperymentu było stopniowe zwiększanie złożoności każdego zadania – poprzez dodawanie kolejnych krążków, pionków, klocków czy osób.
Źródło: Apple, “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”, Czerwiec 2025.
Szokujące wyniki: Kiedy AI przestaje myśleć i zaczyna się poddawać
Wyniki opublikowane przez Apple są jednoznaczne i rzucają nowe światło na faktyczne ograniczenia obecnych modeli AI.
Gwałtowny spadek skuteczności aż do całkowitej porażki
Okazało się, że każdy z testowanych modeli doskonale radzi sobie z problemami o niskiej i średniej złożoności. Jednak po przekroczeniu pewnego, charakterystycznego dla danego modelu progu, jego skuteczność gwałtownie spada do zera.
Jak widać na powyższych wykresach, w przypadku Wieży z Hanoi, jedne z najlepszych modeli na świecie, takie jak DeepSeek, Claude zaczynają ponosić porażkę już przy zadaniu z pięcioma krążkami, a przy ośmiu ich skuteczność jest zerowa.
Paradoks wysiłku: Mniej “myślenia” przy najtrudniejszych problemach
Jeszcze bardziej zaskakujący jest fakt, że modele AI nie walczą do końca. Badacze analizowali tzw. “tokeny myślenia” (thinking tokens) – miarę zasobów obliczeniowych, które model poświęca na analizę problemu przed udzieleniem odpowiedzi.
Logika podpowiadałaby, że im trudniejsze zadanie, tym więcej “myślenia” powinien poświęcić model. Tymczasem badania Apple pokazały coś odwrotnego. Modele zwiększają swój wysiłek tylko do pewnego momentu. Gdy problem zbliża się do krytycznego progu złożoności, AI zaczyna… myśleć mniej i zużywać mniej tokenów, niejako poddając się jeszcze przed próbą rozwiązania(!!!).
Nawet z gotową instrukcją sobie nie radzą
Aby sprawdzić, czy problemem nie jest brak znajomości odpowiedniej strategii, badacze poszli o krok dalej. W kolejnych testach podawali modelom AI dokładny algorytm, który należy wykonać, aby rozwiązać łamigłówkę. Mimo to, modele nadal zawodziły przy wyższych poziomach złożoności. To mocny dowód na to, że ich porażka nie wynika z braku wiedzy, a z fundamentalnych ograniczeń w śledzeniu złożonych, wieloetapowych procesów.
Co to oznacza dla przyszłości AGI i strategii Apple?
Te odkrycia stanowią ważny głos w dyskusji o drodze do osiągnięcia ogólnej sztucznej inteligencji (AGI). Pokazują, że obecne architektury, mimo imponujących zdolności językowych i generatywnych, mają poważne luki w fundamentalnym rozumowaniu przyczynowo-skutkowym.
Badania te mogą również tłumaczyć ostrożne i nieco odmienne podejście Apple do implementacji AI. Zamiast rzucać się w wir wyścigu na jak największe modele, firma zdaje się skupiać na bardziej praktycznych i, co ważniejsze, bardziej niezawodnych zastosowaniach w ramach swojej “Apple Intelligence”. Ta publikacja zdaje się potwierdzać, że doskonale znają ograniczenia obecnej technologii.
Chwila oddechu dla ludzkości? Kontekst i krytyka Apple
Zanim jednak ogłosimy, że AI wcale nie jest taka mądra, warto dodać łyżkę dziegciu. Jak zauważył ekspert w dziedzinie AI, Gary Marcus, badania Apple nie zawierają bezpośredniego porównania wyników modeli do wyników ludzi.
Wielu z nas również miałoby ogromne problemy z rozwiązaniem Wieży z Hanoi z ośmioma krążkami. Ludzki umysł także ma swoje ograniczenia. Kluczowe jest jednak to, że rozumiemy zasady i potrafimy (przynajmniej w teorii) śledzić algorytm. Modele AI, jak pokazano, zawodzą nawet wtedy, gdy mają podaną “na tacy” instrukcję.
Iluzja Myślenia a rzeczywistość AI
Publikacja Apple to niezwykle cenny wkład w nasze rozumienie tego, czym naprawdę jest i czym jeszcze nie jest sztuczna inteligencja. Uświadamia nam, że to, co bierzemy za głębokie “myślenie”, może być w dużej mierze niezwykle zaawansowaną, ale wciąż kruchą iluzją.
Modele AI są potężnymi narzędziami do automatyzacji wielu zadań, ale ich zdolności do abstrakcyjnego, wieloetapowego rozumowania mają wyraźne granice. Zrozumienie tych granic jest kluczowe, aby budować systemy, które będą nie tylko inteligentne, ale przede wszystkim niezawodne.
