一个小站的自留地 OpenAI 发布三款音频模型 OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。 语音转文本模型 - gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。 - gpt-4o-mini…