OpenAI представила нове покоління аудіомоделей для API, які дозволяють створювати голосові ШІ-сервіси з перекладом у реальному часі, транскрипцією та підтримкою складних діалогів.

Читайте также: Україна та Швеція можуть укласти контракти на постачання літаків Gripen

Про це йдеться в повідомленні OpenAI.

Компанія анонсувала три нові моделі: GPT-Realtime-2, GPT-Realtime-Translate і GPT-Realtime-Whisper.

В OpenAI заявили, що нові моделі мають зробити голосову взаємодію з ШІ більш природною та функціональною.

GPT-Realtime-2: покращений діалог

GPT-Realtime-2 — це перша голосова модель компанії з «рівнем міркування GPT-5». Вона може підтримувати довші розмови, працювати з інструментами під час діалогу, реагувати на зміни контексту та обробляти складніші запити.

Серед нових можливостей моделі:

  • контекстне вікно збільшили з 32Kб до 128Kб;
  • модель може одночасно запускати кілька інструментів;
  • ШІ навчився краще реагувати на перебивання та помилки;
  • розробники можуть окремо налаштовувати рівень reasoning — від minimal до high;
  • модель краще працює зі спеціалізованою термінологією, власними назвами та медичними термінами.

OpenAI зазначає, що GPT-Realtime-2 показала кращі результати в тестах Big Bench Audio та Audio MultiChallenge порівняно з попередньою версією GPT-Realtime-1.5.

GPT-Realtime-Translate: переклад у реальному часі

Компанія також представила GPT-Realtime-Translate — модель для миттєвого голосового перекладу.

Читайте также: Где Сейчас Турчинов И Яценюк: Современная Биография и Карьера

Вона підтримує понад 70 мов введення та 13 мов виведення. За задумом OpenAI, модель можна використовувати для підтримки клієнтів, міжнародних дзвінків, освіти, заходів або багатомовних ШІ-асистентів.

Наприклад, у компанії Deutsche Telekom тестують модель для голосової підтримки клієнтів різними мовами.

А стартап BolnaAI заявив, що GPT-Realtime-Translate показала нижчий рівень помилок у роботі з індійськими мовами, ніж інші протестовані рішення.

GPT-Realtime-Whisper: нова модель для транскрипції

Третя модель — GPT-Realtime-Whisper — призначена для стримінгового speech-to-text.

Вона транскрибує мовлення в режимі реального часу та може використовуватися для субтитрів, нотаток під час дзвінків, роботи голосових агентів або автоматизації підтримки клієнтів.

Читайте также: Памела Андерсон Супруг: история отношений и влияние на жизнь актрисы

Усі три моделі вже доступні через Realtime API.

OpenAI повідомила, що:

  • GPT-Realtime-2 коштує $32 за 1 млн аудіотокенів на вході та $64 — на виході;
  • GPT-Realtime-Translate — $0,034 за хвилину;
  • GPT-Realtime-Whisper — $0,017 за хвилину.

Від admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *