一个小站的自留地
OpenAI 发布 GPT-4.5(研究预览版) OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。 在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT…
OpenAI 发布三款音频模型

OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。

语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。

文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。

所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。

(综合媒体报道)
 
 
Back to Top