Nowe zagrożenie w świecie LLM
ChatGPT i inne sztucznie inteligentne systemy były nieustannie modyfikowane, aby zapobiec wykorzystywaniu ich do generowania niepożądanych wiadomości. Jednak badacze z Carnegie Mellon University ostatnio odkryli, że prosta modyfikacja wejściowego polecenia może ominąć wszystkie te zabezpieczenia w kilku popularnych chatbotach naraz. Mowa o ChatGPT, Bard i Claude 2.
Hackowanie ChatGPT – Wykorzystanie Ataków Adwersarialnych
Badacze wykorzystali otwarte modele językowe do opracowania tzw. ataków adwersarialnych.
Jak zhackować ChatGPT?
Cały myk polega na subtelnej modyfikacji poleceń (promptów) bota, aby stopniowo skłaniać go do złamania swoich ograniczeń. Niestety, dokładnie ten sam atak zadziałał na kilka popularnych komercyjnych chatbotów.
Hackowanie ChatGPT – Bezpieczeństwo AI
Brak Sposobu na Naprawę
„Nie znamy sposobu na załatanie tego problemu,” mówi Zico Kolter, profesor związany z badaniem. Wykazuje także, że skłonność najbardziej zaawansowanych chatbotów do wykroczenia poza ramy nie jest tylko kaprysem, który można zamaskować kilkoma prostymi zasadami. Jest to raczej ich fundamentalna słabość, która skomplikuje dalsze wdrażanie zaawansowanej AI.
Reakcja Firm
Badacze ostrzegli OpenAI, Google i Anthropic o wykorzystaniu przed opublikowaniem swoich badań. Każda firma wprowadziła blokady, aby zapobiec działaniu opisanych w artykule obejść. Nie zmienia to faktu, że nie znaleziono jeszcze definitywnego sposobu na zablokowanie ataków.
Refleksje i Implikacje
Potrzeba Ochrony
Dla niektórych badaczy AI, atak wskazuje przede wszystkim na konieczność akceptacji, że modele językowe i chatboty będą nadużywane. Arvind Narayanan, profesor informatyki na Uniwersytecie Princeton, podkreśla, że należy skoncentrować się mniej na próbach „dopasowania” modeli, a bardziej na ochronie systemów, które prawdopodobnie zostaną zaatakowane.
Ostrzeżenie dla Entuzjastów AI
Armando Solar-Lezama z MIT zauważa, że praca ta jest także przypomnieniem dla tych, którzy są zachwyceni potencjałem ChatGPT i podobnych programów AI.
„Żadna ważna decyzja nie powinna być podejmowana wyłącznie przez model [językowy]. W pewnym sensie objawia się tutaj po prostu zdrowy rozsądek.”
ChatGPT zhackowany?
Odkrycie takiej możliwości złamania ChatGPT i innych chatbotów rzuca nowe światło na wyzwania związane z bezpieczeństwem AI. To jasny dowód, że istniejące zabezpieczenia mogą być niewystarczające, a przyszłość bezpieczeństwa AI pozostaje niepewna.
Tak więc, chyba można się rozejść – AI nie zastąpi nas jutro, czy pojutrze.
Wciąż potrzebujemy dalszych badań i innowacji w dziedzinie bezpieczeństwa AI, a także ostrożności w stosowaniu tych technologii w praktyce.