Czy jesteś nimi zainteresowany? OFERTY? Oszczędzaj dzięki naszym kuponom WhatsApp o TELEGRAM!

Istnieje ogromny problem, który wstrzymuje uczenie sieci neuronowych

Kwiecień 2 2024

W dynamicznym świecieinteligencja sztuczny, wiodące firmy technologiczne stoją przed nieoczekiwanym wyzwaniem, które może spowolnić tempo innowacji: wzrostem trudności w znalezieniu danych jakości w szkoleniu swoich modeli. Ten niedobór danych wpływa na rozwój zaawansowanych technologii, takich jak GPT-5, podczas gdy firmy kalibru Microsoft i OpenAI poszukują innowacyjnych rozwiązań, aby pokonać tę przeszkodę.

Wyzwania związane ze szkoleniem AI: istnieje głód danych, co spowalnia postęp

W epoce naznaczonej bezprecedensowym wzrostem mocy obliczeniowej i postępem technik uczenia maszynowego OpenAI i mu podobni stoją przed wyzwaniem: paradoks: Obfitość danych online nie przekłada się automatycznie na użyteczne zasoby do szkolenia AI. The potrzebuję dokładnych danych, istotne i aktualne jest ważniejsze niż kiedykolwiek, zwłaszcza jeśli chodzi o szkolenie coraz bardziej złożonych modeli, takich jak planowany GPT-5.

Przejście z GPT-4 na GPT-5 ilustruje ten wykładniczy wzrost zapotrzebowania na dane: podczas gdy ten pierwszy wymagał „tylko” 12 bilionów tokenów, szacunki dotyczące następcy wynoszą około 60-100 bilionów. Rozbieżność między dostępnością a zapotrzebowaniem na dane wysokiej jakości okazuje się istotną przeszkodą, szacując, że: niedobór, który może wynosić od 10 do 20 bilionów tokenów.

Ten deficyt danych wysokiej jakości przekłada się na rzeczywiste wąskie gardło w rozwoju sztucznej inteligencji. Często nieaktualne lub niskiej jakości dane pojawiające się w Internecie stanowią poważny problem granicę efektywności uczenia maszynowego. Ponadto ograniczenia nałożone przez dostęp do danych przez duże platformy tylko pogłębiają problem, dodatkowo ograniczając zasoby dostępne na szkolenia modele językowe.

W odpowiedzi na to wyzwanie przyjęte strategie różnią się od innowacji technicznych po partnerstwa strategiczne. Na przykład OpenAI ma na celu ulepszeniewykorzystując dane audio i wideo za pośrednictwem narzędzia do rozpoznawania mowy Whisper, w celu poszerzenia puli dostępnych danych. Równolegle firma bada możliwość generować dane syntetyczne jakości, która może wypełnić istniejącą lukę.