根据部分网友提供的用例,我们已经能一窥GPT-4V模型的真实面目。
在处理实际问题方面,GPT-4V模型具有非常领先的能力,包括解答带图的理科题目、字谜、图表等等。GPT-4V模型在微调过后,具有卓越的OCR能力和图片整体理解能力,因此不仅可以看到图片中各种异性文字,还可以看到一些抽象的信息(比如道路和设施组成的人脸图案)。
GPT-4V模型在去年底就已经训练完成,在今年3月,OpenAI就开始与Be My Eyes合作,在限定的范围中测试模型以改进模型的幻觉问题和安全性。
在正式推送的版本中,不少用户反映模型对于输入图像的审查过于严格,经常出现拒绝回答的情况,特别是涉及人体和有意义的符号的图像。
不过这并不影响我认为全民多模态AI的时代已经到来。
而且,手上的ChatGPT Plus又更香了。