ChatGPT sprawił, że identyfikacja złośliwych lub obraźliwych treści jest coraz trudniejsza. Lepiej zakładać, że każda nowa wiadomość, którą otrzymujemy, mogła zostać stworzona przez bota

27 stycznia, 2023

Powszechny dostęp do modeli SI, które w kilka sekund dostarczają tekst brzmiący jak napisany przez człowieka to punkt zwrotny w ewolucji cyberzagrożeń. Seria eksperymentów przeprowadzonych przez ekspertów WithSecure (dawniej F-Secure Business) przy użyciu GPT-3 wskazuje, że modele językowe wykorzystujące sztuczną inteligencję umożliwiają cyberprzestępcom zwiększanie skuteczności komunikacji będącej częścią ataku.

Modele językowe SI

GPT-3 (Generative Pre-trained Transformer 3) to model językowy, który wykorzystuje uczenie maszynowe do generowania tekstu. W prowadzonych eksperymentach badacze WithSecure bazowali na tzw. „prompt engineering” – koncepcji związanej z przetwarzaniem języka naturalnego (NLP). Polega ona na szukaniu danych wejściowych, które wprowadzone do modelu przynoszą pożądane lub użyteczne rezultaty. Eksperci sprawdzali w jaki sposób mogą być generowane potencjalnie szkodliwe treści.

W eksperymentach oceniano, jak zmiany danych wejściowych w dostępnych modelach, wpływają na otrzymywane wyniki. Celem było sprawdzenie, w jaki sposób generowanie języka przez SI może być używane w złośliwej lub przestępczej działalności.

Konieczny jest sceptycyzm wobec treści

Eksperymenty obejmowały phishing i spear-phishing, nękanie, uwierzytelnianie scamu, przywłaszczanie stylu pisanego, celowe tworzenie polaryzujących opinii, wykorzystywanie modeli językowych do tworzenia podpowiedzi złośliwych tekstów oraz fake newsów.

Obecnie każdy, kto posiada łącze internetowe, może mieć dostęp do zaawansowanych modeli językowych, a to ma jedną bardzo praktyczną konsekwencję. Lepiej zakładać, że każda nowa wiadomość, którą otrzymujemy, mogła zostać stworzona przez bota.

Możliwość wykorzystania SI do generowania zarówno szkodliwych, jak i użytecznych treści będzie wymagała strategii wykrywania, które są zdolne do zrozumienia znaczenia i celu tekstu pisanego.

Teraz w pewnym sensie wszyscy jesteśmy „łowcami androidów”, próbując dowiedzieć się, czy inteligencja, z którą mamy do czynienia, jest „prawdziwa”, czy sztuczna.

Zagrożenia płynące z modeli językowych

Wyniki przeprowadzonych eksperymentów oraz analiza rozwoju GPT-3 doprowadziły badaczy do kilku wniosków:

Prompt engineering to koncepcja, która będzie się intensywnie rozwijać – podobnie jak tworzenie promptów w złośliwych celach.
Cyberprzestępcy będą w nieprzewidywalny sposób rozwijać możliwości, jakie dają duże modele językowe.
Identyfikacja złośliwych lub obraźliwych treści będzie coraz trudniejsza dla dostawców platform.
Zaawansowane modele językowe już teraz dają przestępcom możliwość zwiększenia skuteczności komunikacji będącej częścią ataku (np. wiadomości phishingowe).

Pełny raport z badania dostępny jest pod tym linkiem wraz z przykładami zapytań do ChatGPT o stworzenie wiadomości (nie jako złośliwej wprost, ponieważ zabrania tego polityka twórców SI).

Adrian Ścibor

W ramach działań związanych z cyberbezpieczeństwem odpowiada w AVLab za przeprowadzanie testów rozwiązań ochronnych przed zagrożeniami. Opracowuje strategie oraz narzędzia, które pomagają w ochronie danych i systemów przed cyberatakami. Współuczestnik międzynarodowej grupy non-profit AMTSO, która zrzesza ekspertów IT.