Czy jesteś nimi zainteresowany? OFERTY? Oszczędzaj dzięki naszym kuponom WhatsApp o TELEGRAM!

Czym jest Mamba, architektura, która ma na celu całkowite pokonanie GPT. Nowa era sztucznej inteligencji?

Styczeń 18 2024

cyfrowy wąż symbolicznie reprezentuje architekturę Mamby w sztucznej inteligencji

Dziś chcę zająć się bardziej technicznymi kwestiami. O sztucznej inteligencji mówimy codziennie, warto jednak wiedzieć, na czym ona bazuje i jak działa. W związku z tym chcę Państwu przedstawić Mamba, nową architekturę, która obiecuje zmienić m.in modele językowe jak je znamy dzisiaj. Funkcje Mamby w porównaniu z funkcjami GPT są znacznie lepsze, a także to, na co pozwala.

Mamba to nowy horyzont dla sztucznej inteligencji

Architektura Transformer, przedstawiona w 2016 roku w artykule „Uwaga to wszystko, czego potrzebujesz” firmy Google stanowiło przełom w modelach językowych, umożliwiając im zachowanie kontekstu w interakcjach. W skrócie: architektura Transformer to model AI używany do tworzenia modeli takich jak GPT (Transformator wstępnie przeszkolony generatywnie).

JAK DZIAŁA ARCHITEKTURA TRANSFORMERÓW

Sercem architektury Transformer jest mechanizm „uwaga„, co pozwala modelowi skupić się na określonych częściach jednego tekstu podczas generowania lub przetwarzania innego. Dzięki temu mechanizmowi Transformers są szczególnie skuteczne w rozumieniu kontekstu i złożonych relacji w tekście. W praktyce modele oparte na architekturze Transformer, takie jak GPT, uczą się tworzyć i rozumieć język w dwóch etapach główne: szkolenie (trening) i wnioskowanie (generowanie tekstu).
Podczas treningmodel jest szkolony na dużych tekstowych zbiorach danych w celu zrozumienia struktur językowych, relacji między słowami, kontekstu itp. W fazie wnioskowanie, model wykorzystuje zdobytą wiedzę do generowania nowego tekstu, odpowiadania na pytania, tłumaczenia języków i innych zadań związanych z przetwarzaniem języka.

Jednak pojawienie się Mamby może oznaczać początek nowej ery. Ta architektura obiecuje, że tak będzie bardziej wydajny, zdolne przezwyciężyć niektóre kluczowe wyzwania stojące przed obecnymi modelami, takimi jak GPT. W szczególności trzy kluczowe aspekty sprawiają, że Mamba jest obiecującą architekturą:

obniżone koszty wnioskowania: Kluczowym aspektem Mamby jest znaczna redukcja kosztów wnioskowania. Jak powiedziałem wcześniej, wnioskowanie to proces, w ramach którego model sztucznej inteligencji po przeszkoleniu stosuje zdobytą wiedzę do nowych danych, generując tekst lub obrazy. W złożonych modelach, takich jak GPT-3 lub GPT-4, proces ten może być kosztowny pod względem zasobów obliczeniowych. Mamba obiecuje obniżyć te koszty nawet pięciokrotnie w porównaniu do modeli opartych na transformatorach, co mogłoby mieć znaczący wpływ, szczególnie w zastosowaniach wymagających generowania szybkiej reakcji lub pracy z ogromnymi zbiorami danych;
koszt obliczenia uwagi liniowej: Druga zaleta Mamby dotyczy efektywności kalkulacji uwagi. W modelach Transformers, koszt rośnie prawie (dokładnie na poziomie mocy, nie jest to przenośnia) w miarę wzrostu długości tekstu. Oznacza to, że im dłuższy tekst, tym więcej zasobów potrzeba do jego przetworzenia, co ogranicza praktyczność modeli w niektórych zastosowaniach. Mamba proponuje rozwiązanie, w którym koszt rośnie liniowo w porównaniu z rozmiarem okna uwagi, dzięki czemu przetwarzanie długich tekstów jest łatwiejsze w zarządzaniu i mniej uciążliwe obliczeniowo;
wyjątkowo większy wkład: Mamba może obsłużyć maksymalne okno wejściowe do 1 miliona tokenówn, znacznie więcej, niż jest to możliwe w architekturze Transformer. Oznacza to, że Mamba teoretycznie mogłaby analizować i rozumieć wyjątkowo długie teksty, np. całe książki, zachowując spójność i szczegóły w kontekście. Na przykład może przeanalizować całą powieść, zachowując jasne zrozumienie postaci, fabuły i tematów od początku do końca.

Pomimo obietnic Mamby, papier Sollewa wątpliwości co do jego skalowalności, szczególnie w porównaniu z masywnymi modelami, takimi jak GPT-4, który ma 175 miliardów parametrów. Skalowalność, w bardzo prostym ujęciu, odnosi się do zdolność systemu do radzenia sobie ze zwiększoną pracą lub wzrostem rozmiaru bez utraty efektywności. Wyobraź sobie małą restaurację, która dobrze sobie radzi z niewielką liczbą klientów. Jeśli restauracja stanie się popularna i zacznie mieć znacznie więcej klientów, powinna sobie poradzić z tym wzrostem bez uszczerbku dla jakości obsługi czy jedzenia. Jeśli się powiedzie, to jest „skalowalne”.

Mamba w obecnym stanie została przetestowana tylko z 3 miliardami parametrów. Dlatego nie jest pewne, czy jego wydajność i efektywność można utrzymać lub poprawić po przeskalowaniu do większych rozmiarów.