Sztuczna inteligencja potrafi imponować, zwłaszcza w obszarach takich jak programowanie czy generowanie treści audio. Czy jednak można na niej polegać w przypadku zaawansowanych badań historycznych? Najnowsze wyniki pokazują, że wciąż jest z tym problem.
Nowy punkt odniesienia dla LLM w dziedzinie historii
Zespół naukowców zaproponował nowe wyzwanie testowe nazwane Hist-LLM, stworzone z myślą o sprawdzeniu możliwości trzech czołowych modeli językowych (LLM) – OpenAI GPT-4, Meta Llama oraz Google Gemini. W badaniu wykorzystano wiarygodny zbiór danych historycznych Seshat Global History Databank. To obszerna baza wiedzy na temat cywilizacji i wydarzeń z przeszłości, nazwana na cześć starożytnej egipskiej bogini mądrości.
Rozczarowujące wyniki GPT-4, Llama i Gemini
Choć oczekiwania wobec zaawansowanych modeli AI były wysokie, badacze z Complexity Science Hub (CSH) z Austrii przedstawili wyniki na konferencji NeurIPS i określili je jako rozczarowujące. Najlepiej poradził sobie GPT-4 Turbo, który osiągnął około 46% poprawności odpowiedzi. Zdaniem naukowców, to wynik niewiele wyższy od przypadkowego zgadywania.
– Głównym wnioskiem z tych badań jest fakt, że choć LLM-y imponują swoimi możliwościami, wciąż nie dysponują wystarczającym zrozumieniem, by sprostać zaawansowanym zagadnieniom z dziedziny historii. Świetnie nadają się do podstawowych faktów, ale gdy w grę wchodzi bardziej złożona analiza na poziomie doktoranckim, nie są jeszcze w pełni gotowe – komentuje współautorka badania, profesor nadzwyczajna informatyki na University College London, Maria del Rio-Chanona.
Przykład błędów modeli AI
Jedno z pytań dotyczyło obecności zbroi łuskowej w starożytnym Egipcie w konkretnym okresie. GPT-4 Turbo odpowiedział twierdząco, jednak zbroja ta pojawiła się w tym regionie dopiero 1500 lat później. Innym przykładem było pytanie, czy w danym okresie w Egipcie istniała regularna armia zawodowa. W rzeczywistości nie istniała, ale model błędnie stwierdził, że tak.
Dlaczego modele językowe mają problem z historią?
Zdaniem badaczy, powodem może być tendencja LLM-ów do „nadpisywania” mniej popularnych faktów powszechniejszymi informacjami. Bogactwo publicznie dostępnych danych np. o imperiach perskich, które posiadały regularne armie, powoduje, że modele AI mogą wnioskować błędnie na temat Egiptu.
– Jeśli ktoś sto razy usłyszy, że A i B, a raz, że C, to zapytany o C, może po prostu powtórzyć informacje o A i B, próbując z nich wywnioskować odpowiedź – wyjaśnia Del Rio-Chanona.
Uprzedzenia względem niektórych regionów
W analizie wykazano również, że modele OpenAI i Meta Llama gorzej radzą sobie z pytaniami dotyczącymi np. Afryki Subsaharyjskiej. Sugeruje to, iż w bazie treningowej LLM-ów dominują dane na temat bardziej „popularnych” kultur i cywilizacji, podczas gdy wiedza o regionach mniej opisywanych w literaturze jest ograniczona.
Wnioski z badania i potencjał na przyszłość
Choć obecne wyniki badań mogą wydawać się zniechęcające, ich autorzy wierzą, że w przyszłości LLM-y mogą wspierać naukowców w poznawaniu dziejów. Naukowcy planują ulepszenie Hist-LLM poprzez włączenie większej liczby informacji o niedostatecznie reprezentowanych regionach oraz formułowanie bardziej złożonych pytań.
– Nasze wyniki zwracają uwagę na obszary, w których LLM-y wymagają dalszych ulepszeń, ale jednocześnie pokazują ich potencjalny wkład w badania historyczne – czytamy w podsumowaniu pracy.
Jak więc widać, choć sztuczna inteligencja robi ogromne postępy w wielu dziedzinach, w kwestii zaawansowanej historii wciąż potrzebuje wsparcia człowieka. Z pewnością warto obserwować dalszy rozwój badań w tej materii – być może kolejne udoskonalenia spowodują, że LLM-y staną się ważnym narzędziem w rękach historyków na całym świecie.
Źródło: Techcrunch
Photo by Mr Cup / Fabien Barral on Unsplash