ChatGPT, opracowany przez OpenAI, wprowadza nowe możliwości, które pozwalają na interakcję za pomocą głosu i obrazu, oferując intuicyjny interfejs i więcej sposobów integracji ChatGPT z codziennym życiem. W niedawnym ogłoszeniu na swojej stronie internetowej OpenAI zdecydowało się z wyprzedzeniem ujawnić te nowe funkcje. Podkreślił także korzyści, jakie przynoszą i wyzwania, jakie stwarzają na rozwijającym się rynku sztucznej inteligencji.
Tematyka tego artykułu:
ChatGPT: interakcja głosowa
Dzięki nowej funkcjonalności głosowej użytkownicy mogą to mieć interaktywne rozmowy z ChatGPT. Dzięki temu możesz korzystać z asystenta nawet w ruchu, zwiększając potencjał chatbota. Na przykład użytkownik może poprosić ChatGPT o opowiedzenie historii dla dzieci w podróży, dzięki czemu będzie ona przyjemniejsza.
Lub podczas kolacji ze znajomymi może dojść do debaty na konkretny temat; w takim przypadku użytkownicy mogą skorzystać z bota, aby uzyskać dokładne informacje i konstruktywnie zakończyć debatę.
Technologia głosowa ChatGPT wykorzystuje a zaawansowany model zamiany tekstu na mowę. We współpracy z profesjonalnymi aktorami głosowymi model ten jest w stanie generować humanoidalny dźwięk z tekstu i krótkich próbek głosu, dzięki czemu interakcja z ChatGPT jest jeszcze bardziej naturalna i intuicyjna. Również dzięki Szept, system rozpoznawania mowy typu open source opracowany przez OpenAI, mówione słowa są przepisane na tekst z dużą precyzją, umożliwiając chatbotowi zrozumienie żądań użytkowników i skuteczne reagowanie na nie.
ChatGPT: interakcja wizualna
Jak wyżej, model AI może teraz przeanalizuj jeden lub więcej obrazów, pozwalając użytkownikom rozwiązywać problemy, planować posiłki czy analizować złożone wykresy. Na przykład użytkownik może przesłać zdjęcie zawartości swojej lodówki. Warto zatem skorzystać z chatbota analizuj obecne produkty spożywcze i proponuj przepisy oparte na tych składnikach, zawiera również instrukcje krok po kroku dotyczące przygotowania.
Zobacz także: GPT-4: Gemini będzie rywalem Google'a. Oto różnice
Ponadto, jeśli użytkownik chce skupić się na konkretnym elemencie obrazu, Aplikacja mobilna ChatGPT zawiera narzędzie do rysowania co pozwala na wyróżnienie konkretnych obszarów obrazu, dzięki czemu komunikacja i analiza stają się jeszcze bardziej precyzyjne i spersonalizowane.
Rozumienie obrazu umożliwiają modele multimodalne GPT-3.5 i GPT-4. Te zaawansowane modele wykorzystują swoje umiejętności językowe do szerokiej gamy obrazów, takich jak fotografie, zrzuty ekranu i dokumenty które zawierają zarówno tekst, jak i obrazy, umożliwiając ChatGPT dokładne i szczegółowe zrozumienie i interpretację kontekstu wizualnego.
Warto o tym wspomnieć z poco OpenAI zintegrowało nie tylko to Canva ale również DALL-E 3 w ChatGPTlub generatywnego modelu obrazu.
Kiedy i dla kogo będzie dostępny
W ciągu najbliższych dwóch tygodni OpenAI wdroży dla użytkowników głos i obrazy w ChatGPT użytkowników posiadających abonamenty Plus i Enterprise.
Dostępna będzie funkcja umożliwiająca interakcję głosową na iOS i Androida ale nie w wersji internetowej, z której korzysta większość ludzi.
Zamiast tego dostępna będzie funkcja umożliwiająca interakcję wizualną na wszystkich platformach, a zatem Android, iOS i internet.
Źródło | OpenAI