OpenAI представила gpt-realtime — продвинутую модель для голосовых агентов с новыми API-возможностями.
Технические новшества:
- gpt-realtime — новая модель speech-to-speech, улучшенная по качеству аудио, пониманию инструкций и точности вызова функций.
- API Realtime теперь поддерживает: Подключение к удалённым MCP-серверам (интеграция инструментов через URL, автоматизация вызова функций). Ввод изображений (можно отправлять фото/скриншоты вместе с аудио или текстом, модель анализирует визуальный контекст). SIP-телефонию (поддержка звонков через Session Initiation Protocol).
- Аудио: Модель генерирует более естественную речь, умеет следовать тонким инструкциям (например, говорить быстро и профессионально или с акцентом).
- Интеллект: Улучшено понимание аудио, распознавание невербальных сигналов, переключение языков в реальном времени, точное определение алфавитно-цифровых последовательностей на разных языках.
Вся обработка аудио происходит в одной модели и через один API, что снижает задержки и сохраняет нюансы речи (в отличие от традиционных цепочек speech-to-text и text-to-speech).
Отдельно хочу отметить улучшения безопасности: модель содержит встроенные классификаторы для предотвращения нарушений, возможность добавлять свои guardrails через Agents SDK.
https://openai.com/index/introducing-gpt-realtime/
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram