Claude 3 Opus 快速评测Anthropic 突袭发布Claude 3家族模型，而对标 GPT-4 的旗舰模型「Claude 3 Opus」也已经对 Pro 会员可用

一个小站的自留地

Anthropic 发布新一代 AI 大模型系列 —— Claude 3 据机器之心，该系列包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中，能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra，在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。 Claude 首次带来了对多模态能力的支持（Opus 版本的 MMMU 得分为 59.4%，超过 GPT-4V，与…

Claude 3 Opus 快速评测

Anthropic 突袭发布Claude 3家族模型，而对标 GPT-4 的旗舰模型「Claude 3 Opus」也已经对 Pro 会员可用。本频将结合各媒体测试结果和个人体验简单总结。

基础性能

从各方Benchmark来看，Claude 3 Opus 的基础性能（推理能力、知识储备）都和目前公认的「地表最强模型」 GPT-4-Turbo不相上下。在数学计算、逻辑推理单项测试上，甚至相比GPT-4-Turbo具有微弱优势。

本频实际体验发现，Claude 3 Opus在理解能力上的确可圈可点，不论是中文还是英语提问，绝大多数情况都不会出现误解的情况。

对于创作和翻译类任务，在不使用任何提示词工程的情况下，Claude 3 Opus的中文流畅度表现较佳。

多模态性能

本次Claude 3 全家族三个模型都支持图片输入。英语多模态能力二者不相上下（GPT-4 也已基本达到甚至超过人类水平），而在多语言的文字识别，特别是抽象文本（如手写）的识别和猜测上，Claude 3 Opus 明显占优。本频测试了此前 GPT-4 翻车的中文海报，Claude 3 Opus 已经能识别出大部分较为明显的文本。

尽管如此，Claude 3 Opus 还是没能克服大模型在多模态时的幻觉问题。一旦用户提示「你错了」，Claude 3 Opus 仍然有很大几率「承认错误」并识别出错误的文字。

用户体验

Claude 3 Opus 的上下文窗口相比ChatGPT 网站上提供的32K 上下文的 GPT-4 要高不少，读取文档的功能也是全文读取而非 ChatGPT 通过类似向量库读取，因此总结长文的能力比 ChatGPT 强了不止一点。

然而，Claude网页端当前的功能仍较为简单，对数学公式、Markdown 等格式的原生支持都不如 ChatGPT 完善而成熟。

不同于 ChatGPT 支持无限的对话（即使会自动截断超出窗口的上文），Claude会将上文全部发送。因此单次对话仅限 5 张图片，上传大文档后也很容易出现对话途中达到限制被迫重开对话的情况，体验算不上好。

指令遵循方面，Claude 3 Opus 相比 GPT-4 可以用完败来形容。

GPT-4 可以很轻松地完成的按照指定格式输出的指令，Claude 3 Opus 就经常出错，或在下文中忘记要求，中文对话下的指令遵循表现本频感受甚至只有 GPT-3.5 的水平。而且也许是刚发布服务器压力大的原因，经常出现中文回复一段后莫名出现英语单词的情况，在有图片输入时尤为严重。

ChatGPT 在生产力上的优势仍是Claude难以企及的，但相信随着大模型基础能力差距的缩小，会有越来越多产品选择「性价比更高」的Claude 3 家族模型，留给OpenAI的时间也许不多了。