ChatGPT 正式支持多模态ChatGPT 官方发布公告，新增语音双向对话、图片对话等多模态方式

ChatGPT 正式支持多模态

ChatGPT 官方发布公告，新增语音双向对话、图片对话等多模态方式。

其中，图片对话功能（Vision），是 OpenAI 通过与 Be My Eyes 的合作实现的。这场合作在 GPT-4 发布会时就已经官宣。

ChatGPT 的视觉对话功能，甚至可以输入多张图片，或通过标注告诉 AI 图片的重点。

语音对话功能，包含语音转文字和文字转语音两部分。

前者已经在移动端 App 中可用，是利用 OpenAI 的 Whisper 模型。而后者似乎也是利用 OpenAI 的新模型实现，官网称，他们正将这一技术用于Spotify 的播客语音翻译功能。

这些功能将在未来两周内向 Plus 和 Enterprise 用户推出。iOS 和 Android 平台上都可用。

这些新增的声音和图像功能为用户提供了更多的交互方式，使得与ChatGPT的对话更加丰富和多样化。用户可以通过语音进行实时对话，也可以通过图像展示问题或情境，使得ChatGPT能够更好地理解用户的需求并提供更准确的回答。

——————
src: openai.com