OpenAI 发布三款音频模型OpenAI 刚刚宣布在其 API 中推出全新一代音频模型，包括两款语音转文本模型和一款文本转语音模型，旨在让开发者能够轻松构建强大的语音 Agent

一个小站的自留地

OpenAI 发布 GPT-4.5（研究预览版） OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT…

OpenAI 发布三款音频模型

OpenAI 刚刚宣布在其 API 中推出全新一代音频模型，包括两款语音转文本模型和一款文本转语音模型，旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构，为语音交互带来了显著提升。

语音转文本模型
- gpt-4o-transcribe：每分钟 0.006 美元，单词错误率(WER)显著降低至 2.46%，在多种语言的基准测试中优于现有 Whisper 模型，特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe：每分钟 0.003 美元（是前者的一半），基于 GPT-4o-mini 架构的精简版本，通过知识蒸馏技术从大模型转移能力，虽然 WER 稍高于完整版模型，但仍优于原有 Whisper 模型，速度更快、效率更高。

文本转语音模型
- gpt-4o-mini-tts：每分钟 0.015 美元，首次支持「可引导性」(steerability)，开发者不仅能指定「说什么」，还能控制「如何说」，包括预设多种语音风格或通过指令调整语音风格。

所有三个模型均通过 OpenAI 的 API 提供，用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频，该演示网站提供多种预设模板，包括人设、语气、方言、发音等设置。

（综合媒体报道）