Czy jesteś nimi zainteresowany? OFERTY? Oszczędzaj dzięki naszym kuponom WhatsApp o TELEGRAM!

Microsoft VALL-E naśladuje nasz głos już po 3 sekundach mówienia

Styczeń 11 2023

W ciągu zaledwie 3 sekund sztuczna inteligencja, która nigdy nie słyszała, jak mówisz, może doskonale naśladować Twój głos. To najnowsze osiągnięcie sztucznej inteligencji Microsoftu - model zamiany tekstu na mowę VALL-E, który potrafi skopiować głos dowolnej osoby w ciągu zaledwie 3 sekund mowy.

Microsoft VALL-E naśladuje nasz głos już po 3 sekundach mówienia

Pochodzi z DALL E, ale specjalizuje się w dziedzinie audio, a efekt zamiany tekstu na mowę stał się popularny po opublikowaniu w Internecie.

Niektórzy użytkownicy powiedzieli, że połączenie VALL·E i ChatGPT spowoduje, że wynik będzie niesamowity. Innym wydaje się, że dzień, w którym będzie można prowadzić wideorozmowy z AI, jest już niedaleki. Są nawet tacy, którzy żartują, że po tym, jak AI zajęła się pisarzami i malarzami, kolejni są aktorzy głosowi.

Ale jak VALL·E naśladuje „niespotykany” dźwięk w 3 sekundy?

VALL-E analizuje dźwięk za pomocą modeli językowych. Syntetyzuje mowę w oparciu o „niesłyszane” dźwięki AI, czyli uczenie się bez próbek.

Tradycyjne rozwiązanie zamiany tekstu na mowę to w zasadzie tryb przedtreningowy wraz z dopracowaniem. Jeśli zostanie użyty w scenariuszu z próbką zerową, spowoduje to słabe podobieństwo i naturalność generowanej mowy.

Na tej podstawie znikąd pojawił się VALL-E, proponując inny pomysł niż tradycyjny model wokalny.

W porównaniu z tradycyjnym modelem, który wykorzystuje widmo Mel do wyodrębniania cech, VALL-E bezpośrednio traktuje syntezę mowy jako zadanie modelu językowego, pierwszy jest ciągły, a drugi dyskretny.

W szczególności tradycyjny proces syntezy mowy jest często ścieżką „fonem → mel-spektrogram (mel-spektrogram) → przebieg”.

Ale VALL-E przekształcił ten proces w „fonem → dyskretne kodowanie dźwięku → kształt fali”:

Pod względem konstrukcji modelu VALL-E jest również podobny do VQVAE. Kwantyzuje dźwięk do serii dyskretnych tokenów. Pierwszy kwantyzator jest odpowiedzialny za przechwytywanie treści audio i charakterystyki tożsamości mówcy, podczas gdy drugie kwantyzatory są odpowiedzialne za udoskonalenie sygnału. co brzmi bardziej naturalnie:

Następnie uwarunkowany tekstem i 3-sekundowym monitem dźwiękowym, autoregresywnie wyprowadza dyskretne kodowanie audio:

Ale nie tylko to, oprócz syntezy mowy z zerową próbką, VALL-E obsługuje również edycję głosu i tworzenie treści głosowych w połączeniu z GPT-3.

Można również przywrócić dźwięk tła otoczenia

Sądząc po zsyntetyzowanych efektach wokalnych, VALL-E może przywrócić więcej niż tylko barwę głosu.

Nie tylko ton jest naśladowany na miejscu, ale obsługuje również różne prędkości mowy. Na przykład są to dwie różne prędkości mowy zapewniane przez VALL-E, gdy to samo zdanie jest wypowiadane dwukrotnie, ale podobieństwo tonalne jest nadal wysokie:

Jednocześnie można dokładnie odtworzyć dźwięk otoczenia drugiej strony.

Ponadto VALL-E może naśladować różne emocje mówiącego, w tym kilka typów, takich jak gniew, senność, neutralność, radość i mdłości.

Warto wspomnieć, że zbiór danych wykorzystany do szkolenia VALL·E nie jest szczególnie duży.

W porównaniu z OpenAI Whisper, który wymagał 680.000 7.000 godzin szkolenia audio i wykorzystywał tylko ponad 60.000 XNUMX głośników i XNUMX XNUMX godzin szkolenia, VALL-E przewyższył wstępnie wytrenowane syntezator mowy pod względem podobieństwa do syntezatora mowy Model YourTTS.

Co więcej, YourTTS słyszał głosy 97 ze 108 mówców z wyprzedzeniem podczas szkolenia, ale w rzeczywistym teście nadal nie dorównuje VALL-E.

Jeśli chodzi o dziedziny, w których można go zastosować:

Nie tylko można go używać do naśladowania własnego głosu, na przykład pomagając osobom niepełnosprawnym dokończyć rozmowę z innymi, ale można go również używać do mówienia za siebie, gdy nie chcesz. Oczywiście można go również używać do nagrywania audiobooków.

Jednak VALL-E nie jest jeszcze oprogramowaniem typu open source i być może będziesz musiał trochę poczekać, aby go wypróbować.