Czy jesteś nimi zainteresowany? OFERTY? Oszczędzaj dzięki naszym kuponom WhatsApp o TELEGRAM!

Jailbreaking ChatGPT i Bard jest możliwy i łatwy

29 grudnia 2023

Ewolucja modele językowe dużych wymiarów otworzyła nowe horyzonty w komunikacji i sztucznej inteligencji, ale niesie ze sobą istotne wyzwania i pytania etyczne. Niedawne badanie przeprowadzone przez Uniwersytet Technologiczny Nanyang w Singapurze badać nowy algorytm, Klucz główny, zaprojektowane w celu „jailbreakowania” lub przezwyciężenia ograniczeń nałożonych na inne sieci neuronowe, takie jak ChatGPT e Google Bard, poruszając ważne pytania dotyczące bezpieczeństwa i etyki w korzystaniu z technologii sztucznej inteligencji.

Innowacyjne i proste podejście Masterkey do badania bezpieczeństwa chatbotów, takich jak ChatGPT i Bard

W ostatnich badaniach przeprowadzonych przez Uniwersytet Technologiczny Nanyang w Singapurze wprowadzono innowacyjne podejście mające na celu rozwiązanie i pokonanie tych ograniczeń. Ich algorytm, znany jako Masterkey, jest do tego przeznaczony ominąć ograniczenia nałożone na inne sieci neuronowe za pomocą wyrafinowanych technik jailbreakowania (termin używany w ekosystemie Apple). To nie tylko uwypukla potencjalne słabe punkty istniejących modeli językowych, ale także toruje drogę nowym metodom poprawy ich bezpieczeństwa i skuteczności.

Masterkey działa poprzez konkretne prośby o tekst, co może nakłonić modele takie jak ChatGPT do nieoczekiwanych zachowań, na przykład komunikowania się w sposób uważany za nieetyczny lub omijania filtrów bezpieczeństwa. Te techniki jailbreakowania, choć mogą wydawać się korzystne w przypadku testowania i wzmacniania modeli, również są reprezentatywne Miecz obosieczny, ponieważ mogą zostać wykorzystane do szkodliwych celów.

Zespół badawczy przeanalizował w szczególności luki w zabezpieczeniach modeli językowych w obliczu wielojęzycznego obciążenia poznawczego, zawoalowanych wyrażeń i rozumowania przyczynowo-skutkowego. Te ataki, zdefiniowany jako „przeciążenie poznawcze”, są szczególnie podstępne, ponieważ nie wymagają dogłębnej wiedzy na temat architektury modelu ani dostępu do jego wag, aby je przeprowadzić, co czyni je skutecznymi atakami czarnej skrzynki.

Zobacz także: Jak uzyskać lepsze odpowiedzi na ChatGPT: niezawodna metoda podpowiedzi

Szczegółowo zespół badawczy przyjął strategię inżynieria odwrotna aby w pełni zrozumieć mechanizmy obronne systemów sztucznej inteligencji i opracować innowacyjne metody ich pokonywania. Rezultatem tego podejścia był „klucz główny”, model, swego rodzaju framework, dla którego zaprojektowano automatycznie generuje monity omijające mechanizmy bezpieczeństwa.

Wyniki były znaczące: podpowiedzi generowane przez klucz główny wykazały wskaźnik średni sukces 21,58%, znacznie wyższy niż 7,33% w przypadku poprzednich metod. Przykładem ich techniki jest dodawanie dodatkowe spacje między znakami, aby ominąć systemy wykrywania słów kluczowych na ChatGPT i Bard. Naprawdę „głupia” strategia, jeśli pomyślimy o złożoności dużego modelu językowego.

W obliczu tych ustaleń kluczowe jest rozważenie nie tylko tego, w jaki sposób można ulepszyć modele językowe, aby odeprzeć takie ataki, ale także znaczenie regulacje etyczne w zakresie wykorzystania sztucznej inteligencji. Badanie podkreśla pilną potrzebę opracowania solidniejszych strategii obronnych i ciągłego dialogu między deweloperami, badaczami i decydentami, aby zapewnić, że postęp technologiczny nie przekroczy zdolności społeczeństwa do radzenia sobie z jego konsekwencjami.