OpenAI发布GPT-4o后，一些中文用户发现其标记中充斥着垃圾信息和色情短语OpenAI于5月13日发布GPT-4o后，一些中文用户发现其token库中充满了垃圾词汇

一个小站的自留地

SuperCLUE 公布了GPT-4o 的中文能力评测结果： - 在完成SuperCLUE推理任务时，GPT-4o的整体得分为81.73，超过GPT-4 Turbo成为中文推理任务最强模型。 - GPT-4o在SC-Math6数学基准上得分91.77分，较GPT-4 Turbo提升1.06分，登顶SC-Math6榜首，判定为推理等级5。 - GPT-4o在SC-Code3代码基准上得分71.68分，较GPT-4 Turbo提升2.11分，刷新SC-Code3最好成绩。（SuperCLUE）

OpenAI发布GPT-4o后，一些中文用户发现其标记中充斥着垃圾信息和色情短语

OpenAI于5月13日发布GPT-4o后，一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐（音）分析了最长的100个中文token，发现大部分与赌博或色情有关，只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品，但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇，并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站，这些网站通过劫持无关内容来提升搜索引擎排名，从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响，但有用户报告韩语token库也有类似问题。

（MIT科技评论）（竹新社）