一个小站的自留地
DeepSeek-R1-Lite 预览版上线 DeepSeek 发布了R1系列推理模型,使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。 该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。 该模型目前可以仅在网页版使用,DeepSeek 方面表示,之后,正式版 DeepSeek-R1 模型将完全开源,DeepSeek 也将公开技术报告,并部署 API 服务。 (DeepSeek)
DeepSeek V3 开源发布,全部权重免费可商用

2024 年 12 月 26 日,DeepSeek AI 正式发布新一代混合专家模型 DeepSeek V3。该模型已在官网 chat.deepseek.com 上线,API 服务同步更新且接口配置无需改动。

DeepSeek V3 采用了混合专家 (MoE) 架构,总参数量达 671B,其中每个词元激活 37B 参数。在预训练阶段共消耗超过 14.8 万亿高质量词元。在三重评测中,该模型展现了强大实力:在美国数学竞赛和全国高中数学联赛上超越所有已知模型;在算法类代码场景远超其他普通模型;特别是在知识类评测上,DeepSeek V3 已经接近目前最强的 Claude-3.5-Sonnet-1022

DeepSeek V3 在教育知识评测 MMLU 上达到 88.5,显著超越其他开源模型;在代码竞赛基准 Codeforces 上位列前 51.6%,大幅领先业内表现;在数学能力评测 MATH-500 上取得 90.2 的成绩,创下了非 o1 类语言模型的新记录。特别值得一提的是,该模型在 AlpacaEval 2.0 上获得 70.0 的成绩,这一指标是评估模型开放式对话能力的重要标准。

——————

DeepSeek V3 采用了一种无需额外损失函数的负载均衡策略,并设置了多次词元预测的训练目标。这两项创新分别解决了混合专家模型中的两大难题:负载均衡与推理速度。

在工程实现层面,DeepSeek V3 首次在超大规模模型上验证了 FP8 混合精度训练的可行性,并通过算法、框架和硬件的协同设计,几乎完全消除了跨节点通信的额外开销。

在部署方面,DeepSeek V3 原生采用 FP8 训练并开源权重。目前 SGLang 和 LMDeploy 已支持原生 FP8 推理,TensorRT-LLM 和 MindIE 则支持 BF16 推理。开发者可通过 Hugging Face 获取模型权重和部署工具。

价格方面,从即日起至 2025 年 2 月 8 日,API 服务将维持优惠价格:每百万输入词元 0.1 元(缓存命中)或 1 元(缓存未命中),每百万输出词元 2 元。优惠期结束后,价格将调整为每百万输入词元 0.5 元(缓存命中)或 2 元(缓存未命中),每百万输出词元 8 元。除了 API 服务外,DeepSeek V3 还提供了完整的开源授权,支持商业化应用。

(综合 DeepSeek AI 官方微信公众号,DeepSeek V3 技术报告,GitHub Page)
 
 
Back to Top