字节跳动 Seed 团队正式开源了 Seed-OSS-36B 模型。该模型系列采用 Apache-2.0 许可证,向社区完全开放。
Seed-OSS 的一大亮点是原生支持 512K 的上下文长度,并在多个主流基准测试中展现出优异性能。模型架构采用了 RoPE、GQA 注意力机制、RMSNorm 和 SwiGLU 激活函数。
本次开源包含两个基座模型版本:官方推荐的包含合成指令数据的 Seed-OSS-36B-Base,以及为研究社区提供的不含合成数据的「纯净」版本。
指令微调版本 Seed-OSS-36B-Instruct 的表现尤为突出,其 Agent 能力在 TAU1-Retail 任务上取得了 70.4 分,刷新了开源模型的 SOTA 记录;代码能力在 LiveCodeBench v6 测试上达到 67.4 分,同样位居开源模型榜首。此外,模型引入了「推理预算 (thinking budget)」机制,允许用户根据任务需求动态调整推理长度,以平衡性能与资源消耗。
与 OpenAI 开源的 GPT-OSS-120B 模型相比,Seed-OSS 以约三分之一的参数量,在长上下文处理、编程和 Agent 能力等多个方面都达到了相当甚至更优的水平。
(Hugging Face)