一个小站的自留地
Claude 3 Opus 快速评测

Anthropic 突袭发布Claude 3家族模型,而对标 GPT-4 的旗舰模型「Claude 3 Opus」也已经对 Pro 会员可用。本频将结合各媒体测试结果和个人体验简单总结。


基础性能

从各方Benchmark来看,Claude 3 Opus 的基础性能(推理能力、知识储备)都和 目前公认的「地表最强模型」 GPT-4-Turbo不相上下。在数学计算、逻辑推理单项测试上,甚至相比GPT-4-Turbo具有微弱优势。

本频实际体验发现,Claude 3 Opus在理解能力上的确可圈可点,不论是中文还是英语提问,绝大多数情况都不会出现误解的情况。

对于创作和翻译类任务,在不使用任何提示词工程的情况下,Claude 3 Opus的中文流畅度表现较佳。


多模态性能

本次Claude 3 全家族三个模型都支持图片输入。英语多模态能力二者不相上下(GPT-4 也已基本达到甚至超过人类水平),而在多语言的文字识别,特别是抽象文本(如手写)的识别和猜测上,Claude 3 Opus 明显占优。本频测试了此前 GPT-4 翻车的中文海报,Claude 3 Opus 已经能识别出大部分较为明显的文本。

尽管如此,Claude 3 Opus 还是没能克服大模型在多模态时的幻觉问题。一旦用户提示「你错了」,Claude 3 Opus 仍然有很大几率「承认错误」并识别出错误的文字。


用户体验

Claude 3 Opus 的上下文窗口相比ChatGPT 网站上提供的32K 上下文的 GPT-4 要高不少,读取文档的功能也是全文读取而非 ChatGPT 通过类似向量库读取,因此总结长文的能力比 ChatGPT 强了不止一点。

然而,Claude网页端当前的功能仍较为简单,对数学公式、Markdown 等格式的原生支持都不如 ChatGPT 完善而成熟。

不同于 ChatGPT 支持无限的对话(即使会自动截断超出窗口的上文),Claude会将上文全部发送。因此单次对话仅限 5 张图片,上传大文档后也很容易出现对话途中达到限制被迫重开对话的情况,体验算不上好。

指令遵循方面,Claude 3 Opus 相比 GPT-4 可以用完败来形容。

GPT-4 可以很轻松地完成的按照指定格式输出的指令,Claude 3 Opus 就经常出错,或在下文中忘记要求,中文对话下的指令遵循表现本频感受甚至只有 GPT-3.5 的水平。而且也许是刚发布服务器压力大的原因,经常出现中文回复一段后莫名出现英语单词的情况,在有图片输入时尤为严重。


ChatGPT 在生产力上的优势仍是Claude难以企及的,但相信随着大模型基础能力差距的缩小,会有越来越多产品选择「性价比更高」的Claude 3 家族模型, 留给OpenAI的时间也许不多了。
 
 
Back to Top