OpenAI Build Hour:GPT-Realtime-2 发布,语音智能体迎来 GPT-5 级推理能力与 128k 上下文 (opens in new tab)
📌 One-Sentence Summary OpenAI Build Hour 发布 GPT-Realtime-2,将 GPT-5 级推理引入语音交互,并通过电商智能体与数据分析看板演示了「语音即操作」的全新工作流范式。 📝 Summary 本期 OpenAI Build Hour 发布了音频 API 套件的重大升级,核心亮点是 GPT-Realtime-2。本次发布涵盖三款全新模型:Real-time Translate(支持 70+ 种输入语言、13 种输出语言)、Real-time Whisper(延迟可调至 200ms 以内,支持 80 种输入语言),以及旗舰模型 GPT-Realtime-2——将 GPT-5 级推理能力带入语音交互,并具备出色的工具调用与多语言性能。 GPT-Realtime-2 的关键技术升级包括:上下文窗口扩展至 128k(提升 4 倍,可支持约 1 小时不截断的完整对话)、引入人性化前导语实现推理过程中的自然过渡,以及逐轮 VAD(语音活动检测)控制,确保法律免责声明等关键输出不被打断。 两个现场演示诠释了「语音即操作」的新范式:一个是电商购物...
Read the original article