ChatGPT 正式支持多模态

ChatGPT 官方发布公告,新增语音双向对话、图片对话等多模态方式。

其中,图片对话功能(Vision),是 OpenAI 通过与 Be My Eyes 的合作实现的。这场合作在 GPT-4 发布会时就已经官宣。

ChatGPT 的视觉对话功能,甚至可以输入多张图片,或通过标注告诉 AI 图片的重点。

语音对话功能,包含语音转文字和文字转语音两部分。

前者已经在移动端 App 中可用,是利用 OpenAI 的 Whisper 模型。而后者似乎也是利用 OpenAI 的新模型实现,官网称,他们正将这一技术用于Spotify 的播客语音翻译功能。

这些功能将在未来两周内向 Plus 和 Enterprise 用户推出。iOS 和 Android 平台上都可用。

这些新增的声音和图像功能为用户提供了更多的交互方式,使得与ChatGPT的对话更加丰富和多样化。用户可以通过语音进行实时对话,也可以通过图像展示问题或情境,使得ChatGPT能够更好地理解用户的需求并提供更准确的回答。

——————
src: openai.com
 
 
Back to Top