起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/+a5Clq4jLuJc4YWQ9
微软Build 2024:吃下AI生产力蛋糕, 留一半给生态

5月22日, 微软在年度开发者盛会Build 2024上发布了50多项重大更新, 涵盖了从硬件到应用各个层面的AI布局, 意图吃下AI生产力蛋糕中的大部分, 将部分机会留给生态合作伙伴。其中亮点包括:

1. 硬件与云端:
- 与英伟达、AMD达成战略合作, 在Azure云服务中深度整合其加速芯片
- 发布自研AI芯片Maia和Cobalt, 提供强大算力支持

2. 模型生态:
- 携手逾5万家机构和众多模型提供商, 打造开放共赢的AI模型生态
- 发布Phi-3多模态小模型家族新成员Vision, 实现高效视觉理解
- 推出Azure AI Studio一站式开发平台, 降低AI应用开发门槛

3. 数据智能:
- 为Azure数据平台Fabric带来实时智能功能, 简化企业数据处理分析流程
- 集成数据可视化与智能搜索等服务, 赋能数据驱动型决策

4. 工具链与开发平台:
- Copilot Workspace实现编程自动化, 极大提升开发效率
- GitHub Copilot推出插件市场, 首批16家合作伙伴参与共建

5. 生产力应用:
- 发布新一代Copilot Personal助手, 在GPT-4o加持下性能全面升级
- 推出Team Copilot企业级智能助手, 赋能团队协作各个场景
- Copilot Studio & Connectors实现Agent自动化, 连接企业内外数据源

压轴助阵发布会的OpenAI CEO Sam Altman透露:
- OpenAI下一代大模型将很快推出, 带来突破性的多模态能力和通用人工智能
- GPT-4o性能将进一步提升且成本更低, 背后是微软提供的虎鲸规模的超算支持
- 鼓励开发者把握这一自互联网诞生、移动互联网繁荣以来最激动人心的技术革命时刻

微软此次发布会信息量巨大,从硬件、模型、数据、工具到应用各个层面布局AI,意图吃下AI赋能未来工作的大部分机会,将部分长尾需求留给生态伙伴。Build 2024见证了微软在人工智能领域"软硬兼施"的全栈实力, 也预示着通过开放、合作、创新, 微软有望在未来AI生产力赛道中抢得先机。

(综合媒体报道)
一个小站的自留地
5 月9日,阿里云召开峰会,正式发布通义千问2.5,模型性能全面赶超GPT-4-Turbo,成为“地表最强”中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。 (券商中国) 另据 SuperCLUE 的测评结果,通义千问2.5取得总分74.93分,与GPT-4 Turbo仍有一定差距,相差5.21分。其他如编码和数学能力也有差距,但值得一提的是数学能力位居国内大模型第一。
商汤「日日新5.0」中文基准测评出炉,总分80.03刷新最好成绩,文科能力领跑

在SuperCLUE综合基准上,SenseChat V5表现不俗,以总分80.03分的优异成绩刷新国内最好成绩(通义千问2.5取得总分74.93分 ,GPT-4o得分为81.73),并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。

在本次测评中,理科任务上SenseChat V5取得国内最好成绩,较GPT-4-Turbo-0125低4.35分,还有一定提升空间;文科任务上SenseChat V5表现十分出色,以82.20分取得国内外最高分。

(SuperCLUE)
国产大模型价格战时间线

5月6日
DeepSeek官网推出“高性价比”大模型DeepSeek-V2,将价格降至每百万词元输入1元、输出2元(32K上下文)。该模型能力对标GPT-4和llama 3-70B,价格仅为GPT-4的近1%。开发者登录DeepSeek开放平台送500万词元。

5月11日
智谱AI调整旗下入门级大模型GLM-3-Turbo(上下文长度128k)的价格,从0.005元/千词元降低到0.001元/千词元。此外,开放平台新注册用户获赠从500万词元提升至2500万词元(包含2000万GLM3-Turbo和500万GLM4)。GLM-3 Turbo Batch批处理API进一步降价50%,至0.0005元/千词元,即1元可处理200万词元。

5月15日
在火山引擎原力大会上,火山引擎总裁谭待宣布豆包主力模型在企业市场的定价为0.0008元/千词元,即0.8厘可处理1500多个汉字,比行业便宜99.3%。

5月21日
阿里云宣布通义千问全系降价,最高降幅达97%。通义千问商业化模型和开源模型降价,以跟进国产大模型降价潮。

同日,百度宣布旗下ERNIE Speed和ERNIE Lite模型「全面免费,立即生效」,但旗舰模型定价保持不变。

5月22日
科大讯飞宣布讯飞星火API能力正式免费开放。其中,讯飞星火Lite API永久免费开放,讯飞星火顶配版(Spark3.5 Max)API价格低至0.21元/万词元。

同日,腾讯宣布其开发的混元-lite模型全面免费。

——————

至此,国内大模型厂商的降价潮已覆盖几乎所有主流大模型的基本版。

有评论指出,当国产大模型纷纷迈入「百万词元一元钱」的门槛后,意味着这些模型功能上逐渐成熟,但价格的急剧下降可能会导致行业内的「清场」,小玩家逐渐被淘汰。随着成本的下降,相关应用会迅速兴起并普及。降价潮过后,将进入国产大模型的下半场。

然而,也有观点认为,这场价格战看似降低了小规模开发测试的成本,但实际上却隐藏了高并发资源的额外费用,生产级的真实成本并未下降。价格战的背后更多是为了市场份额和眼球效应,而非真正的技术进步。
一个小站的自留地
SuperCLUE 公布了GPT-4o 的中文能力评测结果: - 在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。 - GPT-4o在SC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。 - GPT-4o在SC-Code3代码基准上得分71.68分,较GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。 (SuperCLUE)
OpenAI发布GPT-4o后,一些中文用户发现其标记中充斥着垃圾信息和色情短语

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。
大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。
这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。
目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。

(MIT科技评论)(竹新社)
一个小站的自留地
谷歌 I/O 2024发布会:用AI突袭OpenAI

1. Gemini 1.5 Pro模型上下文长度提升至200万token,为目前最长,可处理2小时视频、22小时音频或超60,000行代码。

2. 推出轻量级Gemini 1.5 Flash模型,更便宜更快,同样支持100万token长上下文和多模态输入。价格仅为GPT-4的二十分之一。

3. 谷歌搜索引入AI Overviews功能,在搜索结果顶端提供AI生成的全面答案总结。已向美国用户开放。

4. 发布全新AI智能助理Astra,效果不输GPT-4o,可通过摄像头识别物体、代码等,并进行语音交互。展示了配合AR眼镜使用的强大效果。

5. 推出文生视频模型Veo,可生成1080p、超60秒长度的高质量视频,打破GPT-4的Sora的多项纪录。

6. 升级Imagen图像生成模型至第三代,细节更丰富,理解能力更强。Music AI Sandbox可协助音乐创作。

7. 第六代TPU芯片Trillium发布,算力比上一代提升4.7倍。Gemini将广泛应用于谷歌生态各个产品和服务中。
一个小站的自留地
SuperCLUE 公布了GPT-4o 的中文能力评测结果:

- 在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。

- GPT-4o在SC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。

- GPT-4o在SC-Code3代码基准上得分71.68分,较GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。

(SuperCLUE)
一个小站的自留地
OpenAI 在昨晚线上直播了 Spring Update(春季更新),时间不仅故意选在对家谷歌年度 I/O 大会的前一天,而且早在发布会前就通过放料+辟谣的连环操作吊足了各路媒体和网友的胃口。

本次发布会可以说非常具有工科人的那种直率气质,在一开始就把整场发布会的要点放在了身后的 Slides 上,也就是号称「人人都能用上」的「GPT-4o」模型。

GPT-4o是OpenAI继GPT-4后推出的全新基础模型,其中o代表omni,即"全能"的意思,体现了模型在多模态等方面的全面升级。

GPT-4o最大的亮点是支持多模态输入输出,能够接受和生成文本、语音、图像的任意组合,使人机交互更加自然流畅。语音响应速度大幅提升,可在232毫秒内给出回应,接近人类水平。

性能方面,GPT-4o在英语文本和编程方面与GPT-4 turbo相当,但在非英语文本、视觉、语音理解等方面有显著提升。同时推理速度更快,API价格降低50%。

在多个基准测试中,GPT-4o刷新了之前模型的最好成绩。如在MMLU(语言理解能力评测)上得分88.7,为综合模型最高分;在MATH数学推理上较此前最好模型(Claude3-Opus)提升27.5%;在HumanEval编程评测中达90.5分,也是最高水平。

在发布会中,OpenAI表示,希望把最强大的AI工具免费提供给所有人使用,未来每个人或将拥有像GPT-7这样的AI算力。
一个小站的自留地
据路透社,OpenAI可能会安排在谷歌年度 I/O 大会的前一天(周一)发布搜索产品。 届时 Google 预计也将推出一系列与人工智能相关的产品。 via https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/
OpenAI宣布,将于美国时间5月13日上午10点(北京时间5月14日凌晨1点),在其官网上直播,并展示最新的ChatGPT及GPT-4相关更新。

而同样是在 5月13日,国内公司 01.AI (零一万物)将在Hugging Face平台上发布专有模型 Yi-Large。据称内测效果「十分惊艳」。

与此同时,OpenAI 首席执行官山姆·阿特曼驳斥了路透社的一篇报道,报道称 OpenAI 将于下周一推出一款搜索产品。

阿特曼在 X 上发帖称,虽然 OpenAI 定于周一早上发布公告,但“不是 GPT-5,不是搜索引擎”,但无论它是什么,他说它“感觉就像魔术一样”。OpenAI 官方帖子提供的唯一细节是,此次发布将更新 ChatGPT 及其最新模型 GPT-4。
一个小站的自留地
据路透社,OpenAI可能会安排在谷歌年度 I/O 大会的前一天(周一)发布搜索产品。

届时 Google 预计也将推出一系列与人工智能相关的产品。

via
https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/
一个小站的自留地
5 月9日,阿里云召开峰会,正式发布通义千问2.5,模型性能全面赶超GPT-4-Turbo,成为“地表最强”中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

(券商中国)

另据 SuperCLUE 的测评结果,通义千问2.5取得总分74.93分,与GPT-4 Turbo仍有一定差距,相差5.21分。其他如编码和数学能力也有差距,但值得一提的是数学能力位居国内大模型第一。
Telegram 的 DC5 离线

用户目前报告连接到 DC5 或与位于 DC5 的用户和对话交互时出现问题。

该数据中心位于新加坡,为亚洲、大洋洲和澳大利亚的用户提供服务。

北京时间 1:30 更新:经过一个半小时的中断后,服务似乎正在重归稳定。

#outages
美国联邦通信委员会(FCC)于2024年4月25日发布命令,指示中国电信、中国联通和中国移动在美国的分公司停止在美国提供固定或移动宽带互联网服务。

作为FCC出于国家安全考虑而采取的更广泛行动的一部分,该指令指出,这些中国电信公司"受到中国政府的剥削、影响和控制"。

FCC的决定要求这些运营商在同日批准的网络中立性命令生效之日起60天内停止服务。

src:
https://www.scmp.com/news/world/united-states-canada/article/3260401/us-federal-communications-commission-bars-chinese-telecoms-carriers-offering-broadband-services

——————
可信度:A
Back to Top