Open AI 更新了 GPT-4o 的图像生成功能，现在 GPT-4o 可以利用其多模态能力和上下文信息生成高质量图像

一个小站的自留地

OpenAI 发布三款音频模型 OpenAI 刚刚宣布在其 API 中推出全新一代音频模型，包括两款语音转文本模型和一款文本转语音模型，旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构，为语音交互带来了显著提升。语音转文本模型 - gpt-4o-transcribe：每分钟 0.006 美元，单词错误率(WER)显著降低至 2.46%，在多种语言的基准测试中优于现有 Whisper 模型，特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。 - gpt-4o-mini…

Open AI 更新了 GPT-4o 的图像生成功能，现在 GPT-4o 可以利用其多模态能力和上下文信息生成高质量图像。
这一功能无论是文字渲染还是风格控制上，都已达到图片生成的第一梯队。

这一功能最早于 26 日凌晨面向 Pro 用户可用，正逐步向 Plus 用户开放。