ChatGPT 视觉模型前瞻&云评测根据部分网友提供的用例，我们已经能一窥GPT-4V模型的真实面目

一个小站的自留地

ChatGPT 正式支持多模态 ChatGPT 官方发布公告，新增语音双向对话、图片对话等多模态方式。其中，图片对话功能（Vision），是 OpenAI 通过与 Be My Eyes 的合作实现的。这场合作在 GPT-4 发布会时就已经官宣。 ChatGPT 的视觉对话功能，甚至可以输入多张图片，或通过标注告诉 AI 图片的重点。语音对话功能，包含语音转文字和文字转语音两部分。前者已经在移动端 App 中可用，是利用 OpenAI 的 Whisper 模型。而后者似乎也是利用 OpenAI…

ChatGPT 视觉模型前瞻&云评测

根据部分网友提供的用例，我们已经能一窥GPT-4V模型的真实面目。

在处理实际问题方面，GPT-4V模型具有非常领先的能力，包括解答带图的理科题目、字谜、图表等等。GPT-4V模型在微调过后，具有卓越的OCR能力和图片整体理解能力，因此不仅可以看到图片中各种异性文字，还可以看到一些抽象的信息（比如道路和设施组成的人脸图案）。

GPT-4V模型在去年底就已经训练完成，在今年3月，OpenAI就开始与Be My Eyes合作，在限定的范围中测试模型以改进模型的幻觉问题和安全性。

在正式推送的版本中，不少用户反映模型对于输入图像的审查过于严格，经常出现拒绝回答的情况，特别是涉及人体和有意义的符号的图像。

不过这并不影响我认为全民多模态AI的时代已经到来。

而且，手上的ChatGPT Plus又更香了。