W erze cyfrowej sztuczna inteligencja (AI) staje się coraz bardziej wszechobecna, znajdując zastosowania w różnych sektorach. Niedawno widzieliśmy postępy w projekcie Google dotyczącym generowania muzyki z prostego „podpowiedzi”. Dziś też to stwierdzamy Meta wyruszył w tę przygodę tworzenie zdolne do tego modele językowe generować dźwięk z opisu tekstowego. Nazwa tego rewolucyjnego narzędzia to „rzemiosło audio".
Meta Audiocraft: nowy horyzont generacji muzyki dostępnej dla każdego (lub prawie)
Audiocraft to narzędzie oparte na sztucznej inteligencji, które wykorzystuje trzy modele językowe: AudioGen, EnCodec i MusicGen. Celem jest umożliwienie użytkownikom uzyskiwania ścieżek audio, zaczynając od prostego opisu tekstowego tego, co chcą usłyszeć. Audiocraft może być używany do generowania zarówno muzyki, jak i dźwięku, a także oferuje możliwości kompresji.
Wśród trzech modeli MusicGen jest specjalnie przeszkolony do generowania muzyki z tekstu. W tym celu wykorzystano tysiące utworów muzycznych na licencji Meta. Najbardziej ekscytującą wiadomością jest to, że wszystkie trzy modele zostały wydane w koncepcja źródło, co oznacza, że każdy może z nich korzystać do tworzenia narzędzi i aplikacji. Według Meta szablony te zostały zaprojektowane specjalnie dla artystów muzycznych i projektantów dźwięku w celu „dostarczania inspiracji”.
Zobacz także: Nowa strategia Meta dotycząca reklamy ukierunkowanej: pozwolenie użytkownika
Szablony są już dostępne, a ich kod można pobrać przez Przytulanie Twarzy lub powiązana strona Github. MusicGen może być używany do uzyskiwania fragmentów utworów generowanych przez sztuczną inteligencję AudioGen może zapewnić użyteczne dźwięki do produkcji muzyki. Z drugiej strony EnCodec to narzędzie do kompresji oparte na sztucznej inteligencji.
Aby wygenerować utwór muzyczny, to wystarczy opisz muzykę, którą chcesz uzyskać i naciśnij przycisk „Generuj”. Co więcej, do opisu można dołączyć plik audio lub nagranie z mikrofonu, aby umożliwić modelowi dokładniejsze przetwarzanie rodzaju muzyki, którą chcesz wygenerować.
Wygenerowany dźwięk będzie ścieżką o długości około 12 sekund. Aby uzyskać narzędzie, które może generować pełniejsze fragmenty, będziemy musieli poczekać, aż jakiś programista zbuduje aplikację opartą na tych szablonach. Podana meta narzędzi, teraz społeczność musi dowiedzieć się, co można z nimi zrobić.