部分 Plus 用户已经可以在 iOS 版本的 ChatGPT 客户端上体验语音双向对话功能

一个小站的自留地

ChatGPT 正式支持多模态 ChatGPT 官方发布公告，新增语音双向对话、图片对话等多模态方式。其中，图片对话功能（Vision），是 OpenAI 通过与 Be My Eyes 的合作实现的。这场合作在 GPT-4 发布会时就已经官宣。 ChatGPT 的视觉对话功能，甚至可以输入多张图片，或通过标注告诉 AI 图片的重点。语音对话功能，包含语音转文字和文字转语音两部分。前者已经在移动端 App 中可用，是利用 OpenAI 的 Whisper 模型。而后者似乎也是利用 OpenAI…

部分 Plus 用户已经可以在 iOS 版本的 ChatGPT 客户端上体验语音双向对话功能。

语音对话的界面为全屏黑白+对话气泡，底部文字显示录音状态，支持无需干预的多轮对话，但是语音识别结果和AI的回复并不会以文字显示。

根据网友分享的视频，哪怕是中文对话，ChatGPT也能生成非常自然的语音回复，甚至还会自己加上语气词。看来OpenAI的TTS还是有点东西。至少目前看起来就比第一梯队的微软Azure还要强。

美中不足的是回复需时较久，大约在3～5s左右。

目前语音对话的灰度率大致在50%上下，而被认为是对标Google Bard的视觉功能上线范围则更小。

另外，今天Claude获得新一笔投资，其API也在Amazon的AWS平台上线，目前申请批准较快。

Meta也宣布了自己打造的定位为“名人数字分身”的AI助手。

AIGC领域似乎又在内卷了。