OpenAI zmienia zasady. Zapomnij o uczeniu się języków, po prostu mów
Chociaż sztuczna inteligencja kojarzy się większości osób z czatbotami, obrazkami i filmikami, to ma ona znacznie więcej zastosowań.
OpenAI wprowadziło nowe modele głosowe, które mają być znacznym usprawnieniem względem dostępnych do tej pory rozwiązań. Według prezentacji to koniec prostego schematu pytanie-odpowiedź, a krok w kierunku systemów, które potrafią jednocześnie słuchać, rozumować, tłumaczyć, transkrybować i podejmować działania w trakcie rozmowy.
Jak na razie nowe modele dostępne są wyłącznie w ramach API
Najważniejszą nowością jest GPT-Realtime-2, przeznaczony do prowadzenia bardziej naturalnych rozmów. Ma on generować realistycznie brzmiącą mowę i reagować na użytkownika w sposób przypominający konwersację z człowiekiem. W porównaniu z poprzednikiem, GPT-Realtime-1.5, nowy model ma wykorzystywać rozumowanie klasy GPT-5, co według OpenAI pozwoli mu lepiej radzić sobie z bardziej złożonymi sytuacjami.
Drugim novum jest GPT-Realtime-Translate. Jak sama nazwa wskazuje, model służy do tłumaczenia rozmów w czasie rzeczywistym. Rozwiązanie obsługuje ponad 70 języków wejściowych, czyli takich, które potrafi zrozumieć, oraz 13 języków wyjściowych, w których może przekazywać tłumaczenie rozmówcy. Firma podkreśla, że chodzi nie tylko o samo tłumaczenie słów, ale też o utrzymanie tempa naturalnej rozmowy.
Do tego dochodzi GPT-Realtime-Whisper, nowa funkcja transkrypcji mowy na tekst. Jej zadaniem jest zapisywanie wypowiedzi na żywo, w trakcie trwania interakcji. W praktyce może to oznaczać łatwiejsze tworzenie notatek ze spotkań, zapis rozmów z klientami, automatyczne napisy czy narzędzia dla osób, które muszą korzystać z tekstu zamiast dźwięku.
Początkowo wszystkie z wymienionych dostępne są w ramach API, dla deweloperów tworzących własne aplikacje. OpenAI zauważyło jednak ogromne zainteresowanie ze strony zwykłych użytkowników, a wpisy na X sugerują wprowadzenie tych rozwiązań z czasem również do ChatGPT.