avatar
Клуб CDO
@cdo_club
05.09.2025 10:50
OpenAI представила gpt-realtime — продвинутую модель для голосовых агентов с новыми API-возможностями.

Технические новшества:
- gpt-realtime — новая модель speech-to-speech, улучшенная по качеству аудио, пониманию инструкций и точности вызова функций.
- API Realtime теперь поддерживает: Подключение к удалённым MCP-серверам (интеграция инструментов через URL, автоматизация вызова функций). Ввод изображений (можно отправлять фото/скриншоты вместе с аудио или текстом, модель анализирует визуальный контекст). SIP-телефонию (поддержка звонков через Session Initiation Protocol).
- Аудио: Модель генерирует более естественную речь, умеет следовать тонким инструкциям (например, говорить быстро и профессионально или с акцентом).
- Интеллект: Улучшено понимание аудио, распознавание невербальных сигналов, переключение языков в реальном времени, точное определение алфавитно-цифровых последовательностей на разных языках.

Вся обработка аудио происходит в одной модели и через один API, что снижает задержки и сохраняет нюансы речи (в отличие от традиционных цепочек speech-to-text и text-to-speech).

Отдельно хочу отметить улучшения безопасности: модель содержит встроенные классификаторы для предотвращения нарушений, возможность добавлять свои guardrails через Agents SDK.

https://openai.com/index/introducing-gpt-realtime/
Openai
Introducing gpt-realtime and Realtime API updates for production voice agents
We’re releasing a more advanced speech-to-speech model and new API capabilities including MCP server support, image input, and SIP phone calling support.
? 3
15 1.4K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram