一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

12:55 · 2024年8月14日 · 周三

一个小站的自留地

Gemini API 现可调用多模态能力阅读 PDF Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。如果 PDF 包含图形、图像，或其他可视内容，模型会使用内置的多模态功能来处理 PDF。用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。

Google Gemini Live 发布

Google 在 Made by Google 活动上发布了 Gemini Live,这是一款移动端 AI 对话产品,支持 10 种自然语音。用户可以与 Gemini Live 进行自由流畅的对话,甚至可以在应用后台或手机锁屏时继续交互。

Gemini Live 将与多种安卓应用功能集成,目前已向 Android 手机的 Gemini Advanced 用户推出英语版本,未来几周内将扩展到 iOS 和更多语言。

同一场活动上，Google 发布了 Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL 和 Pixel 9 Pro Fold 四款新手机,均搭载全新的 Tensor G4 芯片。

Tensor G4 是由 Google DeepMind 设计、三星代工的新一代手机芯片,支持多模态 Gemini Nano 模型。新款 Pixel 手机还带来了多项 AI 增强的拍照功能,如 Add Me、重新设计的全景模式等。

Pixel 9 系列起价 799 美元,将于 8 月 22 日起陆续上市。

17:05 · 2024年8月13日 · 周二

一个小站的自留地

GPT-4o 模型卡发布：多模态能力强化，安全评估全面 OpenAI 近日发布了 GPT-4o 模型卡，详细介绍了这一新一代多模态大语言模型的技术细节、安全评估和潜在社会影响。GPT-4o 在 GPT-4 的基础上实现了全面升级，尤其在多模态处理能力方面取得了重大突破。多模态能力方面，GPT-4o 可接受文本、音频、图像和视频输入，并生成文本、音频和图像输出。模型在音频响应速度上表现出色，平均响应时间仅为 320 毫秒，最快可达 232 毫秒，接近人类对话反应速度。在非英语文本、视觉和音频理解方面，GPT…

据 ChatGPT 官方 X 账号，ChatGPT 已经于上周起上线了新的模型，这一新模型属于 GPT-4o 家族，并将最快于明日上线 API。

有消息称，这一新模型是此前在 LMSYS 大模型竞技场上匿名测试的anonymous-chatbot。

——————

此前，Claude 3.5 Opus 和 Gemini 2 都被确认于今年内发布，但未有具体时间表。

有预测称 Claude 3.5 Opus 已经完成训练，发布时间大约在 11 月前后，但也可能提前。

Google 方面，此前发布的 Gemini 1.5 Pro (0801)在 LMSYS 大模型排行榜上霸榜至今。OpenAI 有动机通过新模型重夺榜首。

20:16 · 2024年8月12日 · 周一

一个小站的自留地

马斯克旗下大模型公司xAI开源Grok-1 今天凌晨，埃隆·马斯克（Elon Musk）旗下的大模型公司xAI宣布正式开源其3140亿参数的混合专家（Mixture of Experts, MoE）模型「Grok-1」。 Grok-1 的模型细节包括如下：据机器之心，Grok-1是基于大量文本数据训练的基础模型，该模型的MoE架构在给定token上的激活权重为25%，且从头开始训练，未使用任何特定应用（如对话）进行微调。根据推特网友Andrew Kean Gao的分析，Grok-1模型的关键特点如下：…

据财联社，当地时间周日（8月11日）晚间，特斯拉CEO埃隆·马斯克在X平台上发帖称，旗下xAI公司的人工智能模型Grok 2的测试版本即将发布。

截至目前，xAI已经推出了Grok 1和升级版Grok 1.5，而即将发布的Grok 2则是在此上述基础上进行了进一步升级。

上个月时，马斯克就曾证实Grok 2将在几周内发布。在回答用户关于新模型训练数据的问题时，马斯克称Grok 2在性能上进行了全面升级和优化，拥有「巨大的改进」。Grok 2测试版本的发布，标志着该模型距离正式商用又迈出一步。

23:46 · 2024年8月11日 · 周日

一个小站的自留地

Gemini 1.5 Pro (0801)上线，夺得 LMSYS Chatbot Arena 排行榜榜首 2024 年 8 月 1 日，Google 推出了 Gemini 1.5 Pro 的实验版本 (0801)，并在 Google AI Studio 和 Gemini API 上开放早期测试。该模型在多项基准测试中表现出色，尤其在 LMSYS Chatbot Arena 排行榜上首次超越 OpenAI 的 GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet，以 1300 的 ELO…

Gemini API 现可调用多模态能力阅读 PDF

Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。如果 PDF 包含图形、图像，或其他可视内容，模型会使用内置的多模态功能来处理 PDF。

用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。

14:50 · 2024年8月11日 · 周日

一个小站的自留地

CrowdStrike 故障技术剖析:配置更新中的逻辑错误导致 Windows 蓝屏 2024 年 7 月 19 日,CrowdStrike 发布的一次配置更新引发了全球性故障,导致大量 Windows 设备出现蓝屏。故障源于 CrowdStrike Falcon 安全软件中的一个名为「通道文件」(Channel File)的配置组件。这些文件位于 Windows 系统的 C:\Windows\System32\drivers\CrowdStrike\ 目录下,文件名以「C-00000291-」开头…

CrowdStrike 发布 Channel File 291 事件根因分析报告

网络安全公司 CrowdStrike 近日发布了 Channel File 291 事件的详细技术根因分析报告。该事件发生于 2024 年 7 月 19 日，导致全球约 850 万台 Windows 系统崩溃，影响了交通、金融、医疗、零售等多个行业。

报告指出，事件源于多个技术因素的叠加。2024 年 2 月发布的 Falcon 传感器 7.11 版本引入了新的 IPC（进程间通信）模板类型，用于检测滥用命名管道的新型攻击技术。然而，该模板类型定义了 21 个输入参数字段，而调用内容解释器的集成代码只提供了 20 个输入值。这种参数数量不匹配在多重验证和测试中未被发现，部分原因是测试和初始模板实例中使用了通配符匹配标准。

7 月 19 日，两个新的 IPC 模板实例被部署，其中一个引入了第 21 个输入参数的非通配符匹配标准。内容验证器评估这些新模板实例时，错误地假设 IPC 模板类型会提供 21 个输入。当传感器接收到包含问题内容的新版 Channel File 291 时，暴露了内容解释器中潜在的越界读取问题。在下一次 IPC 通知中，新模板实例被评估，试图比较第 21 个输入值。由于内容解释器只预期 20 个值，这导致了越界内存读取，最终引发系统崩溃。

为防止类似事件再次发生，CrowdStrike 采取了包括在传感器编译时验证模板类型输入字段数量、为内容解释器添加运行时边界检查、扩大测试覆盖范围、改进内容验证器逻辑等。公司还更新了内容配置系统，引入分阶段部署机制等的多项措施，并增强了客户对快速响应内容更新的控制权。

此外，CrowdStrike 聘请了两家独立的第三方软件安全供应商，对 Falcon 传感器代码进行安全性和质量保证审查，并对整个开发到部署的质量流程进行独立评估。

CrowdStrike 成立于 2011 年，总部位于美国德克萨斯州奥斯汀，是全球领先的网络安全技术公司之一。其核心产品 Falcon 平台是一个基于云的端点保护解决方案，提供下一代防病毒、端点检测和响应、设备控制等功能。Falcon 平台通过单一轻量级代理部署，可在线或离线工作，分析尝试在端点上运行的文件。除此之外，CrowdStrike 还提供威胁情报、托管威胁搜寻、身份保护、云安全等服务，以及全天候的托管检测和响应服务。

（CrowdStrike）

09:25 · 2024年8月10日 · 周六

一个小站的自留地

Google 正向少量 Gemini advanced 用户推送新图像生成模型 Imagen3。(仅限 beta version 15.25.31.29 及以上的安卓 App) （Raddit） Google 于 2024年6月26日发布Imagen 3，宣称这是其最先进的文本到图像AI模型。最初只允许少数创作者在ImageFX的私人视图中使用。

Imagen 3已向所有用户推出。

这是 Google 发布的，质量可与 Flux 等媲美的先进图片生成模型。

体验地址：

https://aitestkitchen.withgoogle.com/zh/tools/image-fx

08:57 · 2024年8月10日 · 周六

一个小站的自留地

阿里云发布新一代音频语言模型Qwen2-Audio 阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展，为语音助手、音频内容分析等应用领域开辟了新的可能性。 Qwen2-Audio的主要特点和创新如下： 1. 双模式交互：支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以直接与模型进行语音对话；在音频分析模式下，用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图，在两种模式间无缝切换，无需用户手动操作。 2. 多样化音频处理能力：…

Qwen2-Audio 已经开源。

https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

18:13 · 2024年8月9日 · 周五

Anthropic 公司 Claude 3.5 Sonnet 模型出现部分服务中断

8 月 8 日，Anthropic 公司旗下的 Claude 3.5 Sonnet 模型在 Claude.ai 网站和 API 接口上出现了计划外的服务中断。公司表示已采取缓解措施,错误率正在下降,预计问题将很快得到完全解决。

故障期间，免费用户均无法使用Claude 3.5 Sonnet，而是被重定向到 Haiku 模型。

Anthropic 对此次服务中断给用户工作流程带来的影响表示歉意,并承诺将与基础设施提供商一起对此次事件进行全面审查,以防止此类问题再次发生。

根据 Anthropic 状态页面最新更新， api.anthropic.com 自 16:36 UTC 起已恢复稳定运行，Google Vertex AI 上的 Claude 服务自 17:15 UTC 起也恢复正常。 Claude.ai 网站现已恢复使用 Sonnet 3.5 模型。Anthropic 表示将继续密切监控底层问题,并与基础设施提供商合作防止进一步中断。

官方服务状态页面 https://status.anthropic.com 显示，发稿前，该故障已经解决。

(Anthropic)

12:46 · 2024年8月9日 · 周五

一个小站的自留地

阿里云发布新一代音频语言模型Qwen2-Audio 阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展，为语音助手、音频内容分析等应用领域开辟了新的可能性。 Qwen2-Audio的主要特点和创新如下： 1. 双模式交互：支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以直接与模型进行语音对话；在音频分析模式下，用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图，在两种模式间无缝切换，无需用户手动操作。 2. 多样化音频处理能力：…

阿里云发布 Qwen2-Math 数学模型

阿里云 Qwen 团队发布了专注数学领域的大语言模型系列 Qwen2-Math。该系列模型基于 Qwen2 构建,包含 15 亿、70 亿和 720 亿参数三个版本,目前仅支持英文。

Qwen2-Math 在多项数学基准测试中表现出色。其中最大的 Qwen2-Math-72B-Instruct 模型在 Math 基准上的得分达到 84%,超越了 GPT-4o、Claude 3.5 Sonnet 等闭源模型。在 GSM8K 等其他测试中,该模型也取得了领先成绩。

此外,Qwen2-Math 还在 AIME 2024、AMC 2023 等复杂数学竞赛评测中展现了优秀能力。研究团队表示,未来将推出支持中英双语的版本,并进一步增强模型解决高级数学问题的能力。

（QwenLM）

12:32 · 2024年8月9日 · 周五

一个小站的自留地

OpenAI 发布两项小更新 - GPT-4o 模型卡发布，介绍模型安全及多模态细节等。 https://openai.com/index/gpt-4o-system-card/ - 从今天起，ChatGPT 免费用户每天最多可使用 DALL·E 创建两张图片。

GPT-4o 模型卡发布：多模态能力强化，安全评估全面

OpenAI 近日发布了 GPT-4o 模型卡，详细介绍了这一新一代多模态大语言模型的技术细节、安全评估和潜在社会影响。GPT-4o 在 GPT-4 的基础上实现了全面升级，尤其在多模态处理能力方面取得了重大突破。

多模态能力方面，GPT-4o 可接受文本、音频、图像和视频输入，并生成文本、音频和图像输出。模型在音频响应速度上表现出色，平均响应时间仅为 320 毫秒，最快可达 232 毫秒，接近人类对话反应速度。在非英语文本、视觉和音频理解方面，GPT-4o 较之前版本有显著提升。

GPT-4o 模型卡披露了部分模型架构、训练方式和语料来源等技术细节，但并未完全公开所有信息。模型采用自回归全模态（autoregressive omni）架构，通过端到端训练将文本、视觉和音频输入输出整合到同一神经网络中处理。预训练数据截止到 2023 年 10 月，来源包括公开可用数据、专有数据、网络数据、代码和数学数据，以及多模态数据。OpenAI 表示在预训练阶段进行了数据过滤，如使用审核 API 和安全分类器过滤有害内容，减少个人信息等。

安全评估是此次 GPT-4o 模型卡的重点内容。OpenAI 采用了多层次的评估方法：

1. 内部和外部红队测试：邀请了来自 45 种语言背景、29 个国家的 100 多名专家参与评估。

2. 准备框架评估：涵盖网络安全、CBRN（化学、生物、放射性、核）、说服力和模型自主性等风险领域。

3. 第三方独立评估：委托 METR 和 Apollo Research 进行额外验证。结果显示，GPT-4o 在自主能力方面相比 GPT-4 并无显著提升，且不太可能具备灾难性欺骗能力。

研究发现，GPT-4o 在多数领域风险较低，但在说服力方面呈现「中等」风险。评估还揭示了一些潜在问题，如在高背景噪声环境下可能模仿用户声音，以及在特定提示下可能生成不当内容。

OpenAI 还特别关注了几个关键风险领域并采取了相应措施：

- 未经授权的语音生成：限制使用预设声音，使用输出分类器检测偏差。
- 说话者识别：训练模型拒绝基于音频识别个人。
- 生成受版权保护的内容：训练模型拒绝此类请求，过滤音乐输出。
- 无根据推断/敏感特征归因：训练模型拒绝或谨慎回答相关问题。
- 违规和禁止内容：使用现有审核模型检查文本转录。

GPT-4o 模型卡还讨论了可能带来的社会影响，包括在医疗健康、科学研究和小语种处理等领域的应用前景和潜在风险。例如，在医疗评估中，GPT-4o 在 MedQA USMLE 4 选项测试中的零样本（zero-shot）准确率达到了 89.4%，超过了许多专业医疗模型。

OpenAI 强调，尽管 GPT-4o 在多个领域展现出强大能力，但仍存在一些已知限制，如音频输入的鲁棒性问题、非英语语言的口音问题等。公司表示将继续监控和更新缓解措施，以应对不断变化的 AI 风险格局。

（OpenAI）

——————

此举在 OpenAI CEO 山姆·奥特曼发布引发猜测的「草莓」图片后不久，引起了国内媒体广泛关注和讨论。

不久前，OpenAI 宣布任命卡耐基梅隆大学机器学习系教授兼主任 Zico Kolter 为公司新董事会成员，以加强公司在 AI 安全性方面的专业知识。

另外，本频早前报道的 LYSMS 大模型竞技场中出现的 anonymous-chatbot 被广泛认为可能是 OpenAI 的新模型，引发了对公司可能即将发布更强大模型的猜测。

Hugging Face的研究员Lucie-Aimée Kaffee指出,GPT-4o系统卡仍存在漏洞,如缺少关于模型训练数据的详细信息。也有不少用户对此次发布表示失望，期待更实质性的产品发布，但 OpenAI 联合创始人 Greg Brockman 表示公司内部对最近的进展非常满意。

（The Verge、机器之心）

08:54 · 2024年8月9日 · 周五

一个小站的自留地

OpenAI 推出GPT-4o-2024-08-06模型，加量还减价 - 最大输出从之前的4K tokens提升到16K tokens。 - 支持强大的JSON格式结构化输出能力,在复杂JSON schema评测中取得100%的完美成绩。 - 输入成本降低50%,为每百万tokens $2.50。 - 输出成本降低33%,为每百万tokens $10.00。 - 总体比GPT-4 Turbo便宜约50%。 Ref: https://openai.com/index/introducing-structured…

OpenAI 发布两项小更新

- GPT-4o 模型卡发布，介绍模型安全及多模态细节等。

https://openai.com/index/gpt-4o-system-card/

- 从今天起，ChatGPT 免费用户每天最多可使用 DALL·E 创建两张图片。

12:52 · 2024年8月8日 · 周四

一个小站的自留地

Gemini 1.5 Pro (0801)上线，夺得 LMSYS Chatbot Arena 排行榜榜首 2024 年 8 月 1 日，Google 推出了 Gemini 1.5 Pro 的实验版本 (0801)，并在 Google AI Studio 和 Gemini API 上开放早期测试。该模型在多项基准测试中表现出色，尤其在 LMSYS Chatbot Arena 排行榜上首次超越 OpenAI 的 GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet，以 1300 的 ELO…

疑似来自 OpenAI 的新模型 anonymous-chatbot 上线 LMSYS 大模型竞技场

一个名为 anonymous-chatbot 的神秘大语言模型出现在 LMSYS 大模型竞技场上，但根据用户反馈，其性能表现出色，在某些任务上甚至超越了当前最先进的模型。

据用户报告，anonymous-chatbot 在多项测试中表现优异，包括成功完成了「草莓测试」和「过河难题」等逻辑推理任务。该模型还能正确回答 9.9 和 9.11 大小比较等需要精确数学计算的问题。另一位用户表示，该模型能够一次性解决所有逻辑测试谜题，展现出强大的问题解决能力。

也有用户反馈，该匿名模型仅擅长推理，而在其他模型能正常表现的常规任务下表现一般。

值得注意的是，OpenAI CEO Sam Altman 在社交平台 X 上发布了一张草莓园的照片，配文「我喜欢花园里的夏天」。这一举动被广泛解读为对传闻已久的 OpenAI 新项目「Strawberry」（草莓）的暗示。尽管 Altman 本人并未直接确认，但这一巧合进一步加剧了人们对 anonymous-chatbot 与 OpenAI 可能存在关联的猜测。

22:14 · 2024年8月7日 · 周三

一个小站的自留地

Meta 及旗下社交平台遭遇大规模服务降级据DownDetector， Google，Meta，CloudFlare，X，Microsoft，AWS 等大型网站和云提供商几乎同时出现短暂故障。 CloudFlare 和Google的状态页面并未显示异常，而 Meta 方面则公开表示遇到了故障。据Android Police，故障受影响最严重的是 Meta 及旗下产品 Facebook、Instagram 。截止发稿，仍有用户报告 Facebook、X、Massager 等社交平台不可用，且这一故障可能是全球性的。…

Spotify 全球服务器宕机影响大量用户

2024年8月7日上午,全球最大音乐流媒体平台 Spotify 遭遇大规模服务器宕机,影响了全球众多用户。宕机从英国时间11:30左右开始,截至发稿时仍未完全恢复。

用户反馈的主要问题包括:
- 无法播放音乐或只能循环播放单首歌曲
- 无法登录,遇到"出错了"的提示
- 网页版和移动应用同时受到影响

故障监测网站 DownDetector 在当天上午8点左右记录到约2,000人报告了相关问题。许多用户表示这次宕机影响了他们的日常生活,如健身、通勤或日常音乐收听。

Spotify 官方尚未就此次事件发表声明。客户支持账号建议用户清除缓存、尝试不同浏览器、重新登录或重启设备。其他音乐流媒体服务如 Apple Music、Amazon Music、YouTube Music 和 TIDAL 未受影响。

这是 Spotify 自2023年4月以来首次发生重大宕机。目前宕机原因尚不清楚,可能与8月6日发布的应用更新有关,但尚未得到官方确认。

(英国标准晚报、BGR、Evening Standard)

17:56 · 2024年8月7日 · 周三

一个小站的自留地

Midjourney 发布 v6.1 版本,全面提升 AI 图像生成能力 2024 年 7 月 30 日,AI 图像生成工具 Midjourney 正式推出 v6.1 版本。该版本在多个方面实现了显著提升: - 图像连贯性增强,特别是在手臂、腿、手等人体部位的生成上更加自然 - 图像质量大幅提高,减少了像素伪影,增强了纹理和皮肤细节 - 小细节更加精确,如眼睛、小脸等特征的生成更为准确 - 生成速度提升约 25% - 新增 --q 2 模式,可生成更多纹理细节此外,v6.1 版本还更新了放大和个性化模型…

FLUX 模型：AI 图像生成新标杆

Black Forest Labs 公司(原Stable Diffusion团队成员创立)近日发布了革命性的 FLUX 系列图像生成模型。FLUX 采用创新的混合架构，结合 Transformer 和扩散技术，拥有 120 亿参数，在图像质量、提示词响应和输出多样性方面均达到了新高度。

模型版本：
- FLUX.1 [pro]：顶级商业版本，提供最高质量的图像生成能力。
- FLUX.1 [dev]：开放权重的非商业版本，适合研究和开发使用。
- FLUX.1 [schnell]：速度优化版本，适合本地开发和个人使用，采用 Apache 2.0 许可。

模型特点：
- 采用流匹配（flow matching）技术，相比传统扩散模型效果更佳。
- 引入旋转位置嵌入和并行注意力层，进一步提升性能。
- 图像细节和质量极佳，尤其在人体解剖学方面表现出色，特别是手部细节。
- 提示词遵循度高，能准确理解和执行复杂指令。
- 输出结果多样化，适应不同风格和场景。
- 复杂场景构图能力强，能创造出富有想象力的画面。

（Black Forest Labs）

在线体验：https://replicate.com/black-forest-labs/flux-pro

16:44 · 2024年8月7日 · 周三

一个小站的自留地

阿里云上海数据中心网络故障，B站等多家互联网平台服务受影响 2024 年 7 月 2 日上午，阿里云上海数据中心发生网络故障，导致多家依赖其服务的互联网平台出现不同程度的服务中断。北京时间 10 时 04 分左右，阿里云表示，监控系统首次发现上海地域可用区 N 出现网络访问异常，工程师已开始紧急处理。受此影响，知名视频网站哔哩哔哩遭遇大规模服务异常。用户反馈无法查看动态内容、发表或浏览评论、进行点赞操作，甚至收藏夹也显示为空白。故障发生后，B站官方微博尚未就此次事件发布任何说明或解释。与此同…

哔哩哔哩发布 7.2 断网故障复盘报告

2024 年 7 月 2 日 10:04，哔哩哔哩（以下简称 B 站）机房 A 的公网物理光缆全部中断，导致该机房无法通过公网访问。B 站技术团队近日发布了详细的故障复盘报告，分析了此次事件中暴露的问题并提出了优化措施。

故障源于 B 站双公网接入点（POP）至机房 A 的链路同时中断，造成机房 A 公网完全脱网。B 站的网络架构采用 POP 与机房解耦设计，并建立了 B2-CDN 环网。在正常情况下，动态内容分发网络（DCDN）公网节点可通过双 POP 交叉回源站，应对单点故障。

故障发生后，站点可靠性工程师（SRE）与网络工程师迅速召开线上会议进行故障定位和止损。首先将单个运营商用户流量切向具有专线回源的 CDN 专线节点。随后，执行全站多活业务切流至机房 B，并对非多活业务流量执行降级，将用户流量切向 CDN 专线节点回源。

核心业务（如首页推荐、播放等）因配置了源站机房级别自动容灾而未受影响。然而，其他业务不同程度受到冲击。B 站在复盘中发现三个主要问题：机房极端断网故障定界较慢、部分多活业务仍需手动切流、非多活业务缺乏主动逃生机制。

针对这些问题，B 站提出了一系列技术优化措施：
1. 扩容 DCDN 专线节点算力及规模
2. 优化双公网 POP 出口异常情况下的调度预案
3. 提升故障定界效率，优化网络拓扑面板和告警展示方式
4. 持续推进多活建设并进行常态化演练
5. 为更多用户强感知场景配置机房级别自动容灾策略
6. 优化非多活流量的逃生方案

B 站表示，将在下半年重点关注多活风险治理，除了常态的切流演练外，还将启动南北向、东西向的断网演练。

（哔哩哔哩技术）

12:53 · 2024年8月7日 · 周三

一个小站的自留地

OpenAI 推出 gpt-4o-64k-output-alpha 模型，显著提升模型单次输出长度。暂时仅限 Alpha 参与者。此前 Claude 和 DeepSeek 都相继在 API 上测试 8K 输出，而 GPT-4o-mini 则在 API 提供 16K 长度的输出。

OpenAI 推出GPT-4o-2024-08-06模型，加量还减价

- 最大输出从之前的4K tokens提升到16K tokens。
- 支持强大的JSON格式结构化输出能力,在复杂JSON schema评测中取得100%的完美成绩。

- 输入成本降低50%,为每百万tokens $2.50。
- 输出成本降低33%,为每百万tokens $10.00。
- 总体比GPT-4 Turbo便宜约50%。

Ref:
https://openai.com/index/introducing-structured-outputs-in-the-api/

12:35 · 2024年8月6日 · 周二

OpenAI 高层地震：多名元老离职，马斯克再度起诉

近日，OpenAI 迎来一系列重大人事变动。多位关键高管相继宣布离职，其中包括：

- 联合创始人 John Schulman 离职，加入竞争对手 Anthropic。
- 公司总裁 Greg Brockman 开始长期休假。
- 产品负责人 Peter Deng 离职。

这一连串人事变动引发了外界对 OpenAI 管理层稳定性的担忧。据 The Information 报道，这可能是去年 11 月「宫斗大戏」的余波。

与此同时，特斯拉 CEO 埃隆·马斯克 (Elon Musk) 于 8 月 5 日向加州北区联邦法院提起诉讼，起诉 OpenAI、CEO Sam Altman 和总裁 Greg Brockman。马斯克指控被告违背了 OpenAI 最初的非营利使命，称其「欺骗程度堪比莎士比亚戏剧」（CNN）。

诉讼声称，OpenAI 的转变是一场「精心策划的骗局」，背叛了马斯克的初衷。马斯克的律师表示，这是一场「更为强硬的诉讼」(The Guardian)。诉讼要求设立「推定信托」，以追回被告「非法获得的利润、资产和财产」。

这些事件的发生恰逢 OpenAI 新一代模型 GPT-5 的研发阶段，外界普遍认为这可能会对公司的发展战略和技术路线产生重大影响。有消息称，原定年底发布的 GPT-5 可能会推迟。

（综合自 The Information、CNN、The Guardian）

——————

John Schulman是 OpenAI 的联合创始人，于 2015 年 12 月与 Elon Musk 和 Sam Altman 等人共同创立 OpenAI，在公司担任强化学习团队负责人，参与开发了 ChatGPT。他拥有加州大学伯克利分校电气工程和计算机科学博士学位，之前主要研究机器人技术和强化学习。

Greg Brockman 是 OpenAI 的联合创始人兼公司总裁，1987 年生于美国北达科他州。他曾就读于哈佛大学和麻省理工学院，2010 年加入 Stripe 并于 2013 年成为该公司首位 CTO。2015 年 12 月，Brockman 与 Musk 和 Altman 共同创立 OpenAI，在公司早期领导了多个重要项目，如 OpenAI Gym(一个通用的强化学习研究工具)和 OpenAI Five(一个专门针对Dota 2游戏的AI系统)。

Peter Deng 于 2023 年 5 月加入 OpenAI，任消费者和企业产品副总裁，拥有斯坦福大学符号系统学士和媒体研究/传播硕士学位。在加入 OpenAI 之前，他曾在 Google、Facebook、Instagram、Oculus VR、Uber 和 Airtable 等多家科技巨头担任重要职务，积累了丰富的产品管理经验。

09:18 · 2024年8月6日 · 周二

一个小站的自留地

智谱 AI 发布新一代视频生成模型 CogVideoX,所有用户可免费体验 7月26日,智谱AI宣布推出新一代视频生成模型CogVideoX,并在其AI助手「智谱清言」的各平台上线名为「清影」(Ying)的视频生成功能。所有用户均可免费体验AI文本生成视频和图像生成视频的服务。 CogVideoX在内容连贯性、可控性和模态融合方面有显著创新: - 采用自研的三维变分自编码器(3D VAE)结构,将视频压缩至原始大小的2%,显著提升内容连贯性。 - 开发端到端视频理解模型,增强对文本的理解和指令遵循能力。…

智谱 AI 开源新一代视频生成模型 CogVideoX-2B

2024 年 8 月 6 日，智谱 AI 宣布开源其新一代视频生成模型 CogVideoX-2B。该模型是 CogVideoX 系列的首个开源版本，与智谱此前推出的 AI 视频生成产品「清影」同源，已上传至 GitHub 和 Hugging Face 平台。

CogVideoX 的主要特点包括：
1. 单卡可运行：在 NVIDIA A6000 显卡上可进行推理和微调
2. 高分辨率输出：生成分辨率为 720 × 480，6 秒时长，48 帧
3. 开放训练数据：训练数据来自互联网，B 站提供了部分数据支持

技术细节：
- 推理显存占用：稳定在 21.6 GB，峰值 36 GB
- 微调显存占用：稳定在 46.2 GB
- 未来优化目标：将推理峰值显存降至 24 GB 以内，以支持 RTX 4090 显卡运行

本次开源的是 CogVideoX-2B 版本，可在以下平台获取：
- Hugging Face： huggingface.co/THUDM/CogVideoX-2b
- GitHub： github.com/THUDM/CogVideo

智谱 AI 表示，未来还将开源更大规模的模型。

（赛博禅心）

20:56 · 2024年8月2日 · 周五

一个小站的自留地

DeepSeek API 新增多项功能提升模型能力 7月26日,DeepSeek宣布其API进行重大更新,新增多项功能以增强模型能力: 1. 更新 /chat/completions 接口: - 新增 JSON Output 功能,可强制模型输出 JSON 格式字符串,方便后续处理 - 增加 Function Calling 功能,支持调用外部工具,增强模型与现实世界交互能力 - 新增对话前缀续写功能(Beta),允许用户指定 assistant 消息前缀进行补全 - 将最长输出提升至…

DeepSeek 启用上下文硬盘缓存技术，大模型的价格再降低一个数量级

8 月 2 日起， DeepSeek API 将默认启用上下文硬盘缓存技术，把预计未来会重复使用的内容，缓存在分布式的硬盘阵列中。如果输入存在重复，则重复的部分只需要从缓存读取，无需计算。该技术不仅降低服务的延迟，还大幅削减最终的使用成本。

缓存命中的部分，DeepSeek 费用为 0.1元 /百万 tokens。至此，大模型的价格再降低一个数量级。

硬盘缓存服务已经全面上线，用户无需修改代码，无需更换接口，硬盘缓存服务将自动运行，系统自动按照实际命中情况计费。

该服务的限制是，只有当两个请求的前缀内容相同时（从第 0 个 token 开始相同），才算重复。中间开始的重复不能被缓存命中。

（DeepSeek）

18:27 · 2024年8月2日 · 周五

搜狗输入法在 Windows 上被确认存在严重的越权漏洞

目前搜狗输入法在 Windows 上被确认存在严重的越权漏洞。Windows 环境中，攻击者在能访问到系统登录界面的情况下（位于电脑终端前/电脑开启了远程桌面/使用了ToDesk、向日葵等远程控制软件），无需知晓账号密码即可获取操作系统权限，继而实现增加帐号、修改管理员密码、拷贝文件、植入木马等非法操作。

复现方式

据本频信源，国内已有企事业单位内部通知「必须卸载搜狗输入法」。

搜狗方面回应称，「经搜狗输入法安全团队排查，该问题仅存在于特定版本Windows系统，是由于微软屏幕键盘等相关程序主动以特权接口加载中文输入法导致。我们已将此系统漏洞通知微软相关团队。

在微软修复该漏洞前，为更有效保护用户安全，我们已采取了主动规避措施，在Windows登录界面下搜狗输入法将主动退出加载执行。」

有安全人员解释称，这个是微软登陆界面的0day漏洞，经过测试某度输入法、谷歌拼音也可以复现。

如：
2015年《利用手心输入法绕过win8登录密码保护执行任意命令》https://wooyun.xyz/bug_detail.php?wybug_id=wooyun-2015-0130018
2018年《神漏洞：微软小娜可让任何人修改Windows 10密码》https://www.secrss.com/articles/3348
2020年《利用某度输入法绕过windows登录和提权服务器》https://cn-sec.com/archives/76228.html

Before

After