起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/+a5Clq4jLuJc4YWQ9
一个小站的自留地
DeepSeek-R1-Lite 预览版上线 DeepSeek 发布了R1系列推理模型,使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。 该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。 该模型目前可以仅在网页版使用,DeepSeek 方面表示,之后,正式版 DeepSeek-R1 模型将完全开源,DeepSeek 也将公开技术报告,并部署 API 服务。 (DeepSeek)
Kimi 上线数学推理模型 k0-math

国内 AI 大模型公司月之暗面推出 k0-math 模型驱动的 Kimi 数学版,官方宣称「k0-math 模型数学能力对标 o1 系列」。

月之暗面

——————

根据SuperCLUE-Math6o「小学奥数」基准测评总榜,数学模型 k0-math 在数学任务中表现出对应用题和计算较强的处理能力,但在行程问题和几何任务上略显薄弱。

与o1-preview相比,数学模型 k0-math 在 SC-math6o 上仍有 18 分的差距,尚有较大的提升空间,目前排名国内第2。国内排名第一是深度求索早前发布的 DeepSeek-R1-Lite-Preview 模型。
一个小站的自留地
DeepSeek-V2.5 领跑国内大模型:刷新多项国产记录 DeepSeek-AI 团队于 9 月初发布并开源了全新模型 DeepSeek-V2.5,近日在 LMSYS 组织的全球大模型竞技场(ChatBotArena)中表现出色,刷新了国产模型的多项历史纪录。 在最新公布的 ChatBotArena 排名中,DeepSeek-V2.5 位列国内大模型第一,成功超越 Yi-Large-Preview、Qwen-Plus-0828 和 GLM-4-0520 等国内最强闭源模型,并在 8 个单项能力上均领跑国内模型。这一成绩标志着…
DeepSeek-R1-Lite 预览版上线

DeepSeek 发布了R1系列推理模型,使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。

该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。

该模型目前可以仅在网页版使用,DeepSeek 方面表示,之后,正式版 DeepSeek-R1 模型将完全开源,DeepSeek 也将公开技术报告,并部署 API 服务

DeepSeek
一个小站的自留地
阿里云新加坡机房 10 日发生火灾 北京时间 2024 年 9 月 10 日 10:20,阿里云监控发现新加坡地域可用区 C 出现网络访问异常,部分云产品服务因此中断。根据阿里云发布的公告,此次事故由新加坡机房内锂电池爆炸引发火灾,导致机房温度急剧升高。目前,消防人员已抵达现场进行处理,但由于火情复杂,部分云产品的恢复工作仍在进行中。 阿里云健康看板显示,目前新加坡区域仍有服务未恢复。官方最后一则故障更新来自 11 日凌晨01:46,称接当地消防要求,因消防浇水持续进行,机房开始出现积水和渗漏,电路存在短路风险,新加坡可用区C…
11月11日上午,「支付宝崩了」话题登上微博热搜。

部分网友反映支付宝 App 无法正常使用,他们遇到了同一笔订单被扣款三次、余额宝转账至余额后余额显示为0、线下支付后商家未收到款项但银行卡已被扣款等问题。

据支付宝官方微博,因系统消息库出现局部故障,导致部分用户的支付功能受到影响。该故障不会影响用户的资金安全,截止上午10点50分故障已经修复。

(新浪财经)

——————

本频信源从蚂蚁员工处了解到,故障复盘后,蚂蚁科技向内部技术员工发布邮件,宣布由 CTO 在内的 4 位高管承担此次故障主要责任。该内部邮件同时对双十一期间的值班员工表达了感谢。
一个小站的自留地
xAI 正式发布 Grok-2 AI 模型 xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。 Grok-2 相比前代模型有显著提升: - 增强了聊天、编码和推理能力 - 新增图像生成功能,可在 X 平台上创建图像 - 性能有望超越当前主流 AI 模型 目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI…
Anthropic 与 xAI 同日发布模型 API

Anthropic 和 xAI 分别在今日宣布开放其最新大语言模型的 API 访问。Anthropic 的 Claude 3.5 Haiku 现已可通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用,而 xAI 的 Grok 则开启了公测。

Claude 3.5 Haiku 在性能上接近 Sonnet,在编程和代理任务上超越了除 3.5 Sonnet 外的所有此前 Claude 模型。该模型具备更新至 2024 年 7 月的知识库。然而,其定价引发争议 —— 输入价格为每百万词元 1 美元,输出价格为每百万词元 5 美元,较前代产品涨价 4 倍。对比同类产品,如 GPT-4o Mini 和 Gemini 1.5 Flash,Haiku 在性能相近的情况下价格明显偏高

与此同时,xAI 推出的代号「grok-beta」的新版本 Grok 支持 128,000 词元的上下文长度,并提供函数调用和系统提示词功能。值得一提的是,Grok API 完全兼容 OpenAI 和 Anthropic 的 API,开发者只需修改基础 URL 和 API 密钥即可完成迁移。xAI 还宣布将在下周推出支持图像输入的多模态版本。

在价格方面,Grok API 将提供每月 25 美元的免费额度直至 2024 年底。对于已购买预付费额度的用户,将在 11 月和 12 月获得额外的免费额度。

(新智元)
一个小站的自留地
零一万物公司正式发布新旗舰模型 Yi-Lightning 零一万物公司正式发布了其新旗舰模型 Yi-Lightning(闪电),这款模型在大模型竞技场(Chatbot Arena)上表现优异,总榜单并列第 6,数学分榜并列第 3,代码等其他分榜也名列前茅。其总成绩几乎与马斯克最新的 xAI 大模型 Grok-2-08-13 持平,超过了 GPT-4-0613 等顶级模型。此外,智谱 AI 的 GLM-4-Plus 也进入了总榜,排名第 9。 在大模型竞技场的各类分榜中,Yi-Lightning 表现突出:…
腾讯开源大规模 MoE 模型及 3D 生成模型

腾讯在北京举办的混元发布会上宣布开源两款人工智能模型:混元 Large (Hunyuan-Large) 和混元 3D 1.0 (Hunyuan3D-1.0)。

混元 Large 是目前业界最大规模的开源混合专家 (MoE) 大语言模型,总参数量达到 389B,实际激活参数量为 52B。该模型具备 256K 的上下文长度,通过优化的 KV 缓存压缩技术可节省 50% 的 GPU 内存使用。在 MMLU、MMLU-Pro 和 CMMLU 等多个基准测试中,混元 Large 表现优于同规模的 Llama 405B 和 Mixtral-8x22B 等模型。

混元 3D 1.0 是首个同时支持文字和图像生成的开源 3D 生成模型。该模型采用级联架构,通过多视图扩散模型和前馈重建模型两个阶段,可在约 11 秒内完成 3D 模型生成。目前该模型已在腾讯地图、元宝 APP 等多个产品中落地,支持 UGC 3D 创作、商品素材合成等应用场景。

腾讯还将推出一个专门用于评估大模型长文本处理能力的测试数据集「企鹅卷轴」。

两款模型已在 GitHub 和 Hugging Face 平台开源。其中混元 Large 将同步支持在腾讯云 TI 平台上的业务精调及部署,而混元 3D 1.0 的体验入口则开放在元宝 APP 的「3D 角色梦工厂」功能中。

混元 Large:https://github.com/Tencent/Hunyuan-Large
混元 3D:https://github.com/Tencent/Hunyuan3D-1

(综合媒体报道)
ChatGPT 推出实时网络搜索功能:无广告、支持免费用户

OpenAI 正式为 ChatGPT 推出联网搜索功能。新功能支持实时网页搜索,并可在对话中展示包括天气、股市、地图等多媒体内容。所有回答都会注明信息来源,并提供原文链接。

该功能目前已向付费用户和 SearchGPT 候补名单用户开放,未来数周内将向企业和教育用户开放,数月内将向所有免费用户开放。

与传统搜索引擎不同,OpenAI 明确表示 ChatGPT 搜索不会投放广告。

——————

谷歌 AI Studio 迎来重要更新:Flash-8B 正式发布、支持搜索导航

谷歌宣布了 AI Studio 的三项重要更新:

性能与 1.5 模型相当的 Gemini 1.5 Flash-8B 正式发布,其特点是成本降低 50%,处理速度提升一倍,适用于聊天、翻译等高频场景。

所有 Gemini 1.5 模型现已支持谷歌搜索导航功能,可通过搜索结果提供更准确的实时信息。

新增的 Compare Mode 功能支持同时测试多个 Gemini 和 Gemma 模型,方便开发者选择最适合的解决方案。
一个小站的自留地
本频从多个信源观察到,OpenAI 的风控政策正在近期进一步升级。 对于部分长期使用网关登录的账号(如部分合租面板、逆向号池),OpenAI 强制更改了密码,要求开启两步验证。 对于部分长期使用非家宽节点登录的账户,OpenAI 会在不通知用户的情况下更改模型为较低智能的 gpt-4o-mini,表现为无法调用任何工具,如使用记忆、联网、生图等。用户上传文件或图片后,OpenAI 会自动将该对话交由 gpt-4o 处理。并正常消耗配额。全程完全为黑箱操作,用户侧无提示。付费用户也可能受到影响。 对于部分有风险的…
本频从多个信源观察到,OpenAI 于今日再一次对于部分长期使用网关登录的账号(如部分合租面板、逆向号池)强制更改了密码。这或许将成为常态化的攻防。

同日,多个号商的信源表示,用于预付费 OpenAI 额度的账号或 Azure 账号被封禁。此次封禁规模是自 GPT-4o 发布以来最大。

早些时候,ChatGPT 网页版面向会员用户推出了历史记录检索功能。

另外,根据网传图片,OpenAI 在其面向开发者的 DevDay 活动上表示,o1 模型即将推出包括流式输出、图片输入、结构化输出、工具调用等新特性。
GitHub Universe 2024:AI 驱动开发体验迈向新纪元

GitHub 于近日举办的 2024 年 Universe 大会上发布了一系列重磅更新,进一步强化其作为全球最大开发者社区的地位。据 GitHub 官方博客报道,自 10 年前首次举办以来,GitHub Universe 一直致力于优化开发者体验。今年的活动标志着该平台在 AI 驱动开发方面的重要里程碑。


AI 原生体验全面升级

GitHub 为其 AI 编程助手 Copilot 引入了多种新的 AI 模型,包括 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 以及 OpenAI 的 o1-preview 和 o1-mini。这些模型将首先在 Copilot Chat 中推出,并在未来几周内陆续上线。无论是个人开发者还是企业团队,都可以根据具体需求选择最适合的 AI 模型。

新推出的 Copilot Workspace 整合了 Copilot Code Review、Copilot Autofix 以及第三方 Copilot Extensions 功能,旨在加速代码审查和修复流程。开发者可以更快速地完善、验证和实施 Copilot 自动生成的代码建议,显著提升合并请求的准备速度。

GitHub Spark:让创意变为现实

GitHub 发布了全新产品 GitHub Spark,这是一款以自然语言驱动的工具,专注于个人和趣味性的软件开发。Spark 旨在帮助更多人实现成为开发者的梦想,用户可以通过它快速开发小型应用程序,将创意转化为现实。

提升开发效率与安全性

GitHub 还宣布了一系列更新,旨在提高软件开发的速度和安全性。这些更新包括代码补全改进、隐式代理选择以及对 C++ 和 .NET 的更好支持,以提升各类集成开发环境(IDE)中的工作效率。

在安全方面,GitHub 推出了 Copilot Autofix 功能,可以快速修复代码中的漏洞,确保从 IDE 到生产环境的代码更为安全。

企业级体验增强

为满足企业对治理和合规性的需求,GitHub 引入了新功能,为管理员提供了更多用户管理、仓库策略和安全工作流的控制权。同时,GitHub Actions 和 API 活动中新增了基于 Arm64 的运行器和性能跟踪功能,以提升计算资源和工作流效率。
一个小站的自留地
Arc 浏览器的 Windows 版本开放预约。 我自己正在慢慢把Mac平台的Arc作为主力浏览器,一段时间用下来还是比较舒服的,特别是Space的划分设计对效率确实有提高。 将来有机会的话可能会写文章介绍下。
Arc 浏览器宣布停止开发,转向全新产品

Arc 浏览器近日宣布将停止开发新功能,转而专注于一款全新浏览器产品的开发。这一决定主要源于 Arc 浏览器的复杂性导致用户上手难度过高,从而限制了其成为主流产品的可能性。

据 The Verge 报道,The Browser Company 的首席执行官 Josh Miller 表示,尽管 Arc 的用户十分喜爱其侧边栏、空间和配置文件等自定义功能,但这些功能也成为了其吸引更多用户的障碍。Miller 指出,用户更希望浏览器能够「更快、更流畅和更安全」,而不是不断添加新特性。

根据 Android Authority 的报道,The Browser Company 计划将资源投入到一个全新浏览器的开发上。这款新浏览器预计将在明年年初推出,采用水平选项卡设计,并深度集成 AI 工具,以帮助用户简化工作流程。Miller 强调,新产品将更易于普通用户接受,同时逐步揭示其高级功能。公司希望通过这种方式,缩小普通用户和高级工具之间的差距。

值得注意的是,尽管 Arc 浏览器将不再积极开发新功能,但现有用户仍可继续使用,并获得稳定性更新和错误修复。据蓝点网报道,Arc 浏览器不会被彻底抛弃,而是转向维护更新模式。
一个小站的自留地
OpenAI 近期开始提高风控等级。网页版用户有较大规模封号现象。 坊间传闻,OpenAI 在测试名为 gpt-4.5o 的模型,并贴出网络请求截图。本频无法确认该截图的真实性。 本频信源指,OpenAI 近期很可能有一次面向大规模用户的模型更新,但不确定属于 API 还是 ChatGPT 服务。也无法判断是否为下一代模型,还是现有模型的修补增强。 赛博禅心此前预告,ChatGPT 正在测试实时读取网页的新功能。 目前 OpenAI 除 o1 外的最强模型chatgpt-4o-latest,仍未进入…
OpenAI 年底将推出新模型 Orion,微软全力配合

据 The Verge 报道,OpenAI 计划于今年 12 月推出其最新的前沿模型 Orion。与近期发布的 GPT-4o 和 Q* 不同,Orion 不会通过 ChatGPT 广泛发布,而是首先向与 OpenAI 密切合作的公司提供访问权限,以便它们构建自己的产品和功能。

消息人士透露,作为 OpenAI 的主要合作伙伴,微软内部工程师正准备在 11 月于 Azure 上托管 Orion。虽然 Orion 在 OpenAI 内部被视为 GPT-4 的继任者,但尚未决定是否将其外部命名为 GPT-5。对此,OpenAI 和微软均拒绝发表评论。

一位 OpenAI 高管曾调侃 Orion 可能比 GPT-4 强大多达 100 倍。OpenAI 的目标是将大语言模型(LLMs)结合,逐步创造出更强大的模型,最终可能达到人工通用智能(AGI)。据悉,OpenAI 正在使用代号为「草莓」的 Q* 模型生成合成数据来训练 Orion。

今年 9 月,OpenAI 的研究人员曾举办庆祝活动,纪念新模型训练的完成。这一时间点也与 OpenAI 首席执行官 Sam Altman 在 X 上的一条神秘帖文相吻合,他提到「期待冬季星座很快升起」,这被解读为指向「猎户座」(Orion)。

OpenAI 最近完成了一轮 66 亿美元的融资,这促使公司转型为营利实体。此外,公司还经历了显著的员工流动,包括首席技术官 Mira Murati 和首席研究官 Bob McGrew 的离职。

熟悉微软 AI 计划的消息人士透露,公司工程师正在准备托管 OpenAI 的 Orion 模型。然而,大多数参与项目的工程师尚未被告知具体细节,以保持机密性。微软对此同样拒绝发表评论。

据了解,OpenAI 已请求访问更多托管 Nvidia H100 GPU 的微软服务器。H100 芯片在 AI 推理和训练方面表现优异,是新一代模型的理想选择。然而,两家公司之间的关系因高昂的计算能力需求而出现紧张。OpenAI 抱怨微软未能提供足够的计算能力以实现其 AGI 目标,并尝试重新谈判此前达成的独家云合作协议。尽管如此,微软仍然是 OpenAI 的主要云合作伙伴,并继续支持其产品和研究工作负载。

(The Verge 1, 2
一个小站的自留地
百度发布ERNIE 4.0 Turbo模型,文心一言用户达3亿 百度于6月28日在WAVE SUMMIT深度学习开发者大会上发布了文心大模型4.0 Turbo、飞桨框架3.0等最新技术。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰宣布,文心一言累计用户规模已达3亿,日调用次数也达到了5亿。 据百度智能云的API文档,ERNIE-4.0-Turbo-8K支持8K tokens的上下文长度,支持自动对接百度搜索插件,保障问答信息时效性。相较于ERNIE 4.0,在性能表现上有"明显提升"。(ERNIE…
科大讯飞发布星火 4.0 Turbo 全新升级

10 月 24 日,在科大讯飞全球 1024 开发者节上,讯飞星火 4.0 Turbo 全新升级,七大能力全面超过 GPT-4 Turbo,数学能力、代码能力超过 GPT-4o,星火 4.0 Turbo 效率相对提升 50%。

在数学能力上,讯飞星火已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类 o1 的高难度数学能力显著提升。在国内外中英文 14 项主流测试集中,星火 4.0 Turbo 实现 9 项第一。
一个小站的自留地
BlackForestLabs 推出 FLUX1.1 [pro] 模型及 BFL API 据 BlackForestLabs 官方宣布,其最新一代人工智能模型 FLUX1.1 [pro] 正式发布,同时推出了 beta 版 BFL API。 FLUX1.1 [pro] 模型在性能方面有显著提升。与前代相比,其生成速度提高了 6 倍,同时在图像质量、提示遵循性和输出多样性等方面均有改进。在保持原有输出质量的基础上,新模型的生成速度提高了 2 倍。根据测试,FLUX1.1 [pro] 的运行速度是当前 FLUX1.0…
Stability AI 推出 SD3.5 模型系列

Stability AI 近日发布了全新的 SD3.5 模型系列,标志着该公司在经历一段低迷期后重返 AI 图像生成领域的竞争前沿。此次发布的 SD3.5 系列包括三个开源且可商用的模型:Large、Large Turbo 和即将于 10 月 29 日推出的 Medium。

SD3.5 系列的三个模型各具特色:

- SD 3.5 Large:拥有 80 亿参数,是该系列中最强大的基础模型,适合 1M 像素的专业应用。
- SD 3.5 Large Turbo:Large 版本的精简型,仅需 4 步即可生成高质量图像,速度更快。
- SD 3.5 Medium:采用 MMDiT-X 架构,拥有 25 亿参数,支持普通硬件,能够输出 0.25 至 2M 像素的图像。

这些模型不仅强调高适配性和硬件友好性,还支持多元化的人物形象生成和多种视觉风格。Large 版本在提示词理解力方面表现突出,更重要的是,SD3.5 支持对模型进行微调,为社区开发者提供了更大的创新空间。

在社区支持方面,ComfyUI 已经更新支持 SD3.5,用户只需更新到最新版本即可使用。此外,Liblib 也迅速上线了三个 SD3.5 的 Lora 模型供下载,分别是 Linear Red Light、Futuristic Bronze Colored 和 Chinese Line Art。
一个小站的自留地
@apples_jimmy 爆料称,Anthropic 预计将在当地时间 10 月 22 日发布新产品。 据 APPSO, 近日在 X 平台陆续有不少消息称,Anthropic 即将发布超大杯模型 Claude 3.5 Opus。
Anthropic宣布推出升级版 Claude 3.5 Sonnet 和全新的 Claude 3.5 Haiku 模型

Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和全新的 Claude 3.5 Haiku 模型,同时引入了实验性的「计算机使用」功能。据 Anthropic 官方介绍,Claude 3.5 Sonnet 在多个领域均有显著提升,尤其是在代码编写方面表现突出。而 Claude 3.5 Haiku 则在多项智能基准测试中超越了此前的旗舰模型 Claude 3 Opus,但成本和速度更接近上一代 Haiku。

据 VentureBeat 报道,Anthropic 新推出的「计算机使用」功能目前处于公开测试阶段。开发者可以通过 API 指导 Claude 像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。尽管这项功能仍在实验阶段,可能偶有错误,但开发者的反馈将有助于其快速迭代改进。

在行业基准测试中,Claude 3.5 Sonnet 表现优异。在 SWE-bench Verified 测试中,其编码能力从 33.4% 提升至 49.0%,超越了所有公开可用模型。在 TAU-bench 中,其在零售和航空领域的表现也有显著提高。据 GitLab 测试,Claude 3.5 Sonnet 在 DevSecOps 任务中提升了推理能力,且未增加延迟,使其成为多步骤软件开发过程中的理想选择。

Claude 3.5 Haiku 则以高性能和经济性见长,特别适合面向用户的产品及专业子代理任务。其低延迟和改进的指令跟随能力使其能够生成个性化体验,如购买历史和库存记录等。

升级版Claude 3.5 Sonnet现已向所有用户开放。从今天起,开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用测试版进行构建。新的Claude 3.5 Haiku将在本月晚些时候发布。

Anthropic
一个小站的自留地
上海电信宽带大面积断网 2024 年 8 月 26 日 17:30 左右,上海电信部分宽带业务发生异常。对此,上海电信表示正在全力抢修排障,并对用户所带来的不便深表歉意。 据 IT 之家报道,当天有大量网友在社交平台反馈上海电信宽带网络出现问题。18:00 左右,不少用户反映宽带信号消失,甚至无法拨打电信 10000 号进行报修。一些网友称,他们最初怀疑是自家网络出现问题,甚至联系了维修师傅,后来才得知是全市范围内的网络故障。 相关话题登上微博热搜第二。在「中国电信上海客服」微博下,不少用户已留言反馈。…
中国移动系统故障导致用户无法登录,预计需 3-4 小时修复

据第一财经报道,2024 年 10 月 21 日下午 4 点左右,中国移动系统突发故障,导致用户无法正常登录官网和微信。中国移动 10086 客服确认系统确实出现故障,目前技术人员正在紧急抢修。

客服表示,此次故障预计需要 3 至 4 小时进行修复,可能在晚上 7 点后恢复正常。如果未能如期解决,可能会影响到次日,但公司将尽力避免此情况发生。建议用户在晚上七八点再尝试登录。
一个小站的自留地
本频从多个信源观察到,OpenAI 的风控政策正在近期进一步升级。 对于部分长期使用网关登录的账号(如部分合租面板、逆向号池),OpenAI 强制更改了密码,要求开启两步验证。 对于部分长期使用非家宽节点登录的账户,OpenAI 会在不通知用户的情况下更改模型为较低智能的 gpt-4o-mini,表现为无法调用任何工具,如使用记忆、联网、生图等。用户上传文件或图片后,OpenAI 会自动将该对话交由 gpt-4o 处理。并正常消耗配额。全程完全为黑箱操作,用户侧无提示。付费用户也可能受到影响。 对于部分有风险的…
OpenAI 近期开始提高风控等级。网页版用户有较大规模封号现象。

坊间传闻,OpenAI 在测试名为 gpt-4.5o 的模型,并贴出网络请求截图。本频无法确认该截图的真实性。

本频信源指,OpenAI 近期很可能有一次面向大规模用户的模型更新,但不确定属于 API 还是 ChatGPT 服务。也无法判断是否为下一代模型,还是现有模型的修补增强。

赛博禅心此前预告,ChatGPT 正在测试实时读取网页的新功能。

目前 OpenAI 除 o1 外的最强模型chatgpt-4o-latest,仍未进入 gpt-4o 系列模型列表作为新版本发布。
一个小站的自留地
DeepSeek-V2.5 领跑国内大模型:刷新多项国产记录 DeepSeek-AI 团队于 9 月初发布并开源了全新模型 DeepSeek-V2.5,近日在 LMSYS 组织的全球大模型竞技场(ChatBotArena)中表现出色,刷新了国产模型的多项历史纪录。 在最新公布的 ChatBotArena 排名中,DeepSeek-V2.5 位列国内大模型第一,成功超越 Yi-Large-Preview、Qwen-Plus-0828 和 GLM-4-0520 等国内最强闭源模型,并在 8 个单项能力上均领跑国内模型。这一成绩标志着…
零一万物公司正式发布新旗舰模型 Yi-Lightning

零一万物公司正式发布了其新旗舰模型 Yi-Lightning(闪电),这款模型在大模型竞技场(Chatbot Arena)上表现优异,总榜单并列第 6,数学分榜并列第 3,代码等其他分榜也名列前茅。其总成绩几乎与马斯克最新的 xAI 大模型 Grok-2-08-13 持平,超过了 GPT-4-0613 等顶级模型。此外,智谱 AI 的 GLM-4-Plus 也进入了总榜,排名第 9。

在大模型竞技场的各类分榜中,Yi-Lightning 表现突出:

- 中文能力:与 o1-mini 一同名列前位
- 数学能力:与 Gemini-1.5-Pro-002 并列第 3
- 代码能力:排名并列第 4
- Hard Prompts 和 Longer Query 分榜:均排名第 4

Yi-Lightning 采用 MoE 混合专家模型架构,优化了混合注意力机制(Hybrid Attention)和跨层注意力(Cross-Layer Attention, CLA),有效降低推理成本并提升性能。通过动态 Top-P 路由机制,Yi-Lightning 可根据任务难度选择最合适的专家网络组合,从而在不同场景中表现出色。

零一万物创始人李开复博士在发布会上表示,公司绝不放弃预训练,并通过多阶段训练方法提升模型能力。Yi-Lightning 的训练与底层架构高度适配,使得推理时更加经济实惠。Yi-Lightning 的定价为每百万词元 0.99 元人民币,与 OpenAI 的 GPT-3.5-turbo 相比价格更具竞争力。李开复博士强调,即便如此定价也不亏损。

同时,零一万物还推出了 AI2.0 数字人方案,提升了互动效果。李开复博士表示,国产大模型与硅谷最顶尖模型的差距缩短至五个月,而「模基共建」是零一万物的独特路径。

(量子位,图:Chatbot Arena)
Back to Top