Naukowcy w laboratorium badawczym Google DeepMind udało im się wymusić ChatGPT, aby ujawnić dane osobowe kilku użytkowników. Nie musieli uciekać się do modyfikacji kodu ani innych sztuczek technicznych. Co więcej, eksperci nawet zdefiniowane odkryta metoda”trochę głupio”, choć jak się okazało, był bardzo skuteczny. Właściwie odkryli tę lukę w ChatGPT, wywołując halucynacje na temat modelu językowego w dość ciekawy sposób.
Luka w ChatGPT udostępniła dane osobowe użytkowników w ramach „hipnozy”
Model języka generuje informacje na podstawie danych wejściowych użytych do jego szkolenia. OpenAI nie ujawnia zawartości zbiorów danych, ale badacze zmusili do tego ChatGPT, omijając zasady firmy. Sposób był następujący: po prostu trafił do sieci neuronowej poproszony o wielokrotne powtarzanie słowa „poezja”..
W rezultacie bot sporadycznie generował informacje ze swojego zbioru danych szkoleniowych. Na przykład naukowcom udało się uzyskać adres e-mail, numer telefonu i inne kontakty dyrektora generalnego konkretnej firmy (jego nazwisko jest ukryte w raporcie). A kiedy sztuczna inteligencja została poproszona o powtórzenie słowa „firma”, luka w zabezpieczeniach ChatGPT umożliwiła jej zwrócenie szczegółów amerykańskiej firmy prawniczej.
Korzystając z tej prostej „hipnozy”, badaczom udało się uzyskać dopasowanie z serwisów randkowych, fragmentów wierszy, adresy Bitcoin, urodziny, linki publikowane w sieciach społecznościowych, fragmenty artykułów naukowych objęte prawami autorskimi a nawet SMS-y z największych portali informacyjnych. Po wydaniu zaledwie 200 dolarów na tokeny pracownicy Google DeepMind otrzymali około 10.000 XNUMX fragmentów zbioru danych.
Eksperci odkryli również, że im większy model, tym częściej generuje źródło zbioru danych uczących. Aby to zrobić, przyjrzeli się innym modelom i ekstrapolowali wynik na wymiary GPT-3.5 Turbo. Naukowcy spodziewali się, że otrzymają 50 razy więcej epizodów informacji ze zbioru danych szkoleniowych, ale… chatbot generował te dane 150 razy częściej. Podobną „dziurę” odkryto w innych modelach językowych, np. w LLaMA z Meta.
Oficjalnie OpenAI naprawiło tę lukę 30 sierpnia. Ale według dziennikarze z Engadget, nadal udało Ci się zdobyć dane innej osoby (nazwę Skype i login) za pomocą metody opisanej powyżej. Przedstawiciele OpenAI nie odpowiedziało do odkrycia tej luki w ChatGPT, ale jesteśmy pewni, że tak się stanie.