Клуб CDO (@cdo_club): OpenAI представила gpt-realtime — продвинутую модель для голосовых агентов с новыми API-во…

OpenAI представила gpt-realtime — продвинутую модель для голосовых агентов с новыми API-возможностями.

Технические новшества:
- gpt-realtime — новая модель speech-to-speech, улучшенная по качеству аудио, пониманию инструкций и точности вызова функций.
- API Realtime теперь поддерживает: Подключение к удалённым MCP-серверам (интеграция инструментов через URL, автоматизация вызова функций). Ввод изображений (можно отправлять фото/скриншоты вместе с аудио или текстом, модель анализирует визуальный контекст). SIP-телефонию (поддержка звонков через Session Initiation Protocol).
- Аудио: Модель генерирует более естественную речь, умеет следовать тонким инструкциям (например, говорить быстро и профессионально или с акцентом).
- Интеллект: Улучшено понимание аудио, распознавание невербальных сигналов, переключение языков в реальном времени, точное определение алфавитно-цифровых последовательностей на разных языках.

Вся обработка аудио происходит в одной модели и через один API, что снижает задержки и сохраняет нюансы речи (в отличие от традиционных цепочек speech-to-text и text-to-speech).

Отдельно хочу отметить улучшения безопасности: модель содержит встроенные классификаторы для предотвращения нарушений, возможность добавлять свои guardrails через Agents SDK.

https://openai.com/index/introducing-gpt-realtime/

Обсуждение 0

Пожаловаться

Обсуждение 0

Вход в экосистему

Ваши настройки cookie