一个小站的自留地
ChatGPT 正式支持多模态 ChatGPT 官方发布公告,新增语音双向对话、图片对话等多模态方式。 其中,图片对话功能(Vision),是 OpenAI 通过与 Be My Eyes 的合作实现的。这场合作在 GPT-4 发布会时就已经官宣。 ChatGPT 的视觉对话功能,甚至可以输入多张图片,或通过标注告诉 AI 图片的重点。 语音对话功能,包含语音转文字和文字转语音两部分。 前者已经在移动端 App 中可用,是利用 OpenAI 的 Whisper 模型。而后者似乎也是利用 OpenAI…
部分 Plus 用户已经可以在 iOS 版本的 ChatGPT 客户端上体验语音双向对话功能。

语音对话的界面为全屏黑白+对话气泡,底部文字显示录音状态,支持无需干预的多轮对话,但是语音识别结果和AI的回复并不会以文字显示。

根据网友分享的视频,哪怕是中文对话,ChatGPT也能生成非常自然的语音回复,甚至还会自己加上语气词。看来OpenAI的TTS还是有点东西。至少目前看起来就比第一梯队的微软Azure还要强。

美中不足的是回复需时较久,大约在3~5s左右。

目前语音对话的灰度率大致在50%上下,而被认为是对标Google Bard的视觉功能上线范围则更小。

另外,今天Claude获得新一笔投资,其API也在Amazon的AWS平台上线,目前申请批准较快。

Meta也宣布了自己打造的定位为“名人数字分身”的AI助手。

AIGC领域似乎又在内卷了。
 
 
Back to Top