一个小站的自留地

一个小站的自留地

ChatGPT 视觉模型前瞻&云评测根据部分网友提供的用例，我们已经能一窥GPT-4V模型的真实面目。在处理实际问题方面，GPT-4V模型具有非常领先的能力，包括解答带图的理科题目、字谜、图表等等。GPT-4V模型在微调过后，具有卓越的OCR能力和图片整体理解能力，因此不仅可以看到图片中各种异性文字，还可以看到一些抽象的信息（比如道路和设施组成的人脸图案）。 GPT-4V模型在去年底就已经训练完成，在今年3月，OpenAI就开始与Be My Eyes合作，在限定的范围中测试模型以改进模型的幻觉问题和安全性。…

感谢万能的网友。

支持常见图片格式，包括 GIF。选择文件/拖拽/粘贴直接上传，一次可以多张。
OCR 英语真挺强的，简单的数学公式也没问题。

但是不咋能看懂中文，至少我测试的中文海报 OCR 全错，甚至会出现经典的 AI 幻觉，估计和训练集有关。
对截图的中文 OCR 倒是还 OK。

对图片内容（物体、风格、意境）的把握倒是没啥大问题。

视觉功能仅可在 GPT-4 模型中直接使用，插件模型无法上传图片。