起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/ygxz_group
一个小站的自留地
阿里云发布 Qwen2.5-Max 模型,称其性能超越 DeepSeek V3 和 GPT-4o 阿里云于 2025 年 1 月 29 日推出 Qwen2.5-Max 大语言模型,该模型基于混合专家架构(Mixture-of-Experts, MoE),参数规模超 200 亿,训练数据量达 20 万亿词元。据官方基准测试显示,Qwen2.5-Max 在 Arena-Hard(89.4)、LiveBench(62.2)等 5 项核心指标上均超越 DeepSeek V3 和 GPT-4o,其中数学推理能力(GSM8K…
华为盘古大模型涉嫌抄袭争议

HonestAGI 近日发布 报告 ,指出华为盘古 Pro MoE 72B 大语言模型与阿里千问 2.5 14B 模型存在异常高的相似性。该分析基于一种新的参数分布指纹识别技术,通过检测注意力机制参数的标准差分布模式来识别模型血缘关系。

分析结果显示,两个模型在查询、键值、数值和输出投影矩阵上的相关系数分别达到 0.867、0.928、0.939 和 0.973,综合相关系数为 0.927,远超正常独立开发模型间 0.3 至 0.7 的相似度范围。技术报告还发现,盘古模型保留了千问模型特有的 QKV bias 设计和注意力层归一化权重模式,而这些特征在千问后续版本中已被放弃。

同时,一位自称华为诺亚方舟实验室员工的匿名人士发布详细 举报材料 ,指控由王云鹤领导的「小模型实验室」多次采用「套壳」现有模型的做法。举报者称,盘古 Pro MoE 72B 虽然内部声称是从小模型实验室的 7B 模型扩增而来,但实际上是基于千问 2.5 14B 模型进行的改造。为了掩盖模型来源,开发团队付出了巨大的算力成本进行续训,甚至故意训练「脏数据」来模糊原始特征。举报者表示,用于「洗参数」的算力投入已经足够从头训练一个同等规模的模型

华为诺亚方舟实验室于 7 月 5 日发布 声明 回应争议。声明表示,盘古 Pro MoE 是基于昇腾硬件平台开发训练的基础大模型,并非基于其他厂商模型增量训练而来。华为承认模型的部分基础组件代码实现参考了业界开源实践,但强调严格遵循开源许可证要求。

2025 年 3 月,华为诺亚方舟实验室发生人事变动,90 后王云鹤接替姚骏担任实验室主任。王云鹤此前担任华为算法应用部部长,曾因高效 AI 算法创新获得华为「十大发明」奖项。

(综合媒体报道)
Back to Top