OpenAI представила нове покоління аудіомоделей для API, які дозволяють створювати голосові ШІ-сервіси з перекладом у реальному часі, транскрипцією та підтримкою складних діалогів.
Читайте также: Україна та Швеція можуть укласти контракти на постачання літаків Gripen
Про це йдеться в повідомленні OpenAI.
Компанія анонсувала три нові моделі: GPT-Realtime-2, GPT-Realtime-Translate і GPT-Realtime-Whisper.
В OpenAI заявили, що нові моделі мають зробити голосову взаємодію з ШІ більш природною та функціональною.
GPT-Realtime-2: покращений діалог
GPT-Realtime-2 — це перша голосова модель компанії з «рівнем міркування GPT-5». Вона може підтримувати довші розмови, працювати з інструментами під час діалогу, реагувати на зміни контексту та обробляти складніші запити.
Серед нових можливостей моделі:
- контекстне вікно збільшили з 32Kб до 128Kб;
- модель може одночасно запускати кілька інструментів;
- ШІ навчився краще реагувати на перебивання та помилки;
- розробники можуть окремо налаштовувати рівень reasoning — від minimal до high;
- модель краще працює зі спеціалізованою термінологією, власними назвами та медичними термінами.
OpenAI зазначає, що GPT-Realtime-2 показала кращі результати в тестах Big Bench Audio та Audio MultiChallenge порівняно з попередньою версією GPT-Realtime-1.5.
GPT-Realtime-Translate: переклад у реальному часі
Компанія також представила GPT-Realtime-Translate — модель для миттєвого голосового перекладу.
Читайте также: Где Сейчас Турчинов И Яценюк: Современная Биография и Карьера
Вона підтримує понад 70 мов введення та 13 мов виведення. За задумом OpenAI, модель можна використовувати для підтримки клієнтів, міжнародних дзвінків, освіти, заходів або багатомовних ШІ-асистентів.
Наприклад, у компанії Deutsche Telekom тестують модель для голосової підтримки клієнтів різними мовами.
А стартап BolnaAI заявив, що GPT-Realtime-Translate показала нижчий рівень помилок у роботі з індійськими мовами, ніж інші протестовані рішення.
GPT-Realtime-Whisper: нова модель для транскрипції
Третя модель — GPT-Realtime-Whisper — призначена для стримінгового speech-to-text.
Вона транскрибує мовлення в режимі реального часу та може використовуватися для субтитрів, нотаток під час дзвінків, роботи голосових агентів або автоматизації підтримки клієнтів.
Читайте также: Памела Андерсон Супруг: история отношений и влияние на жизнь актрисы
Усі три моделі вже доступні через Realtime API.
OpenAI повідомила, що:
- GPT-Realtime-2 коштує $32 за 1 млн аудіотокенів на вході та $64 — на виході;
- GPT-Realtime-Translate — $0,034 за хвилину;
- GPT-Realtime-Whisper — $0,017 за хвилину.
