Modele językowe zdobyły uznanie za zdolność generowania języka naturalnego i rozwiązywania złożonych zadań.
Źródła badań
Jednak badanie Apple przedstawione w pracy “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” zmienia perspektywę. LLM-y modele mogą mieć istotne ograniczenia w logicznym rozumowaniu, co kwestionuje ich przydatność do złożonych analiz biznesowych.
Benchmark GSM-Symbolic: Klucz do zrozumienia limitacji modeli językowych
Apple stworzyło benchmark GSM-Symbolic, który generuje różne wersje pytań matematycznych.
Wszystko po to, aby zbadać, jak modele radzą sobie z delikatnymi zmianami w treści zadań.
„Nasze wyniki pokazują, że wszystkie modele wykazują znaczną wrażliwość na zmiany liczby klauzul w pytaniu, co prowadzi do większej zmienności wyników” (s. 3).
Nawet drobne zmiany w danych liczbowych powodowały znaczące spadki skuteczności modelu. To oznaka ich ograniczonej zdolności do radzenia sobie z bardziej złożonymi pytaniami.
Modele językowe jako „Wzorcowe dopasowanie”, a nie prawdziwe rozumowanie
Zamiast rzeczywistego rozumowania, modele AI wykazują coś, co badacze Apple nazywają „dopasowaniem do wzorców.” W badaniu autorzy zauważyli, że LLM-y przypisują znaczenie na podstawie podobieństwa zawuażonego w treningu, nie zważając na logikę (s. 5).
„Silne nastawienie na wzorce jest wynikiem tendencji modeli do nadmiernego polegania na jednostkowych tokenach, co prowadzi do znacznych spadków skuteczności przy najmniejszych zmianach w zadaniach” (s. 5).
Jednym z istotnych odkryć jest podatność na błędy w scenariuszach typu GSM-NoOp, gdzie nieistotne informacje zostają wprowadzane do zadania. Modele automatycznie uwzględniają te informacje jako ważne dla obliczeń, co skutkuje błędami w wyniku. Na przykład, dodanie informacji o pięciu mniejszych owocach do zadania matematycznego sprawiło, że modele uznały to za istotne dla rozwiązania i odejmowały tę liczbę, mimo że nie miała ona znaczenia (s. 8).
Skuteczność modeli a złożoność pytań – Wpływ stopnia trudności
Apple przeanalizowało wpływ poziomu trudności pytań, przygotowując wersje z różnymi liczbami klauzul. Modele, które dobrze radziły sobie na prostych pytaniach GSM-M1, odnotowywały znaczące spadki skuteczności w bardziej złożonych wariantach.
„Obserwowane spadki skuteczności, zwłaszcza przy większej liczbie klauzul, pokazują, że modele te nadal nie rozumieją koncepcji matematycznych na poziomie, który umożliwiałby stabilne rozwiązywanie bardziej złożonych problemów” (s. 9).
Ograniczenia dzisiejszych modeli i kierunki dalszych badań
Badanie Apple nad GSM-Symbolic pokazuje, że zdolność modeli językowych do prawdziwego rozumowania jest ograniczona.
„Aktualna technologia opiera się w dużej mierze na dopasowywaniu wzorców, co oznacza, że modele mogą jedynie symulować logiczne rozumowanie, a nie autentycznie analizować” (s. 12).
W przyszłości konieczne będzie rozwijanie architektur, które pozwolą na bardziej złożone rozumowanie matematyczne, wykraczające poza bieżące możliwości modeli językowych.
A gdzie w tym wszystkim Biznes?
Ograniczenia AI w logicznym rozumowaniu sugerują, że zastosowanie AI w biznesie wymagające skomplikowanych analiz może być wciąż ograniczone. Dopasowanie do wzorców może nie wystarczyć w bardziej wymagających scenariuszach biznesowych. Badanie Apple nad GSM-Symbolic to sygnał, że przed nami długa droga, zanim AI osiągnie poziom poznawczy porównywalny do ludzkiego.
