起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/+a5Clq4jLuJc4YWQ9
一个小站的自留地
本频从多个信源观察到,OpenAI 的风控政策正在近期进一步升级。 对于部分长期使用网关登录的账号(如部分合租面板、逆向号池),OpenAI 强制更改了密码,要求开启两步验证。 对于部分长期使用非家宽节点登录的账户,OpenAI 会在不通知用户的情况下更改模型为较低智能的 gpt-4o-mini,表现为无法调用任何工具,如使用记忆、联网、生图等。用户上传文件或图片后,OpenAI 会自动将该对话交由 gpt-4o 处理。并正常消耗配额。全程完全为黑箱操作,用户侧无提示。付费用户也可能受到影响。 对于部分有风险的…
一个小站猜测,OpenAI 对于网页版 ChatGPT 的模型风控主要是基于 IP 判断的。对于部分合租面板、逆向号池,一个 IP 地址会对应相当多的账号,也即一个 IP 地址会非常频繁地发出对话请求。而对于普通用户,如果使用的代理的解锁 IP 使用人数过多,也会有风控现象。

根据一个小站在九月的测试,可以通过非登录情况下能否对话来测试 IP 是否有风控风险。对于正常 IP,OpenAI 应当允许免登录对话。

本次风控实际上是强制进行了模型替换。无论用户是否付费,在前端选择了什么模型,被风控后发送的请求,都将被 ChatGPT-Auto 模型回复。 这是免费版用户的默认模型。和其他模型的差距为,该模型不支持联网、画图、查看文件等大多数工具操作,并且会根据任务难度决定是由 gpt-4o-mini 模型回复,还是由 gpt-4o 模型回复。

哪怕是 o1 系列模型,OpenAI 也会将其偷换为免费版用户的 ChatGPT-Auto 模型,因此出现了 o1「不思考」的现象。

根据 openssora 的介绍, OpenAI 使用 PoW(Proof of Work)来决定是否对某一 IP 实施风控。

工作量证明 (Proof of Work, PoW) 是一种广泛应用于区块链和其他分布式系统的共识算法,用于防止滥用资源(如垃圾邮件)和确保系统的安全性。 通过 PoW,系统要求参与者完成某种计算任务来证明他们做了 “工作”。

根据 PoW(Proof of Work)的机制,会生成一个 16 进制的 difficulty。difficulty 数值越大,IP 环境就越安全。正常大于 4 位以上的 16 进制,基本就不会降智了。

同时,仓库也提供了一系列独立的解除风控方案:

套 cf,如 Cloudflare Warp。

切换到 ChatGPT APP 版本

网页版按 F12,进入控制台之后,改为移动端展示,然后刷新页面,就会解除(这个方式,是最快让你解除降智的,但临时方案,不推荐一直这么做)

切换到比较干净的 IP,不要使用共享、便宜的魔法

上传一张白图,强制启动

移动端触发 o1 思考,web 端同步刷新,也能恢复

同时,这两个仓库的作者都将风控解决方案打包成了浏览器插件或油猴脚本,可以进行 PoW 的检查和尝试风控解除。

一个小站测试发现,在网页版控制台切换为平板且横屏,刷新页面后保持控制台开启,是最方便地骗过风控,以移动端身份进行对话的方式,且 UI 和桌面端也无太大区别。推荐使用。

——————

本文内容受到了以下仓库的启发,在此表示感谢。

https://github.com/openssora/chatgpt-degrade-checker

https://github.com/KoriIku/chatgpt-degrade-checker
一个小站的自留地
Kimi 上线数学推理模型 k0-math 国内 AI 大模型公司月之暗面推出 k0-math 模型驱动的 Kimi 数学版,官方宣称「k0-math 模型数学能力对标 o1 系列」。 (月之暗面) —————— 根据SuperCLUE-Math6o「小学奥数」基准测评总榜,数学模型 k0-math 在数学任务中表现出对应用题和计算较强的处理能力,但在行程问题和几何任务上略显薄弱。 与o1-preview相比,数学模型 k0-math 在 SC-math6o 上仍有 18 分的差距,尚有较大的…
阿里开源推理大模型 QwQ-32B-Preview

阿里 Qwen 团队发布了专注于推理和思维链的新一代大语言模型 QwQ-32B-Preview。该模型基于 Qwen2.5 32B 的架构,采用 Apache 2.0 许可证开源,支持商用

QwQ 在多个复杂推理基准测试上展现出突出表现:在 GPQA(研究生级问答)得分 65.2%,在 AIME(美国数学邀请赛)达到 50.0%,在 MATH-500 基准测试中达到 90.6%,在 LiveCodeBench(实际编程场景)测评中达到 50.0%。这些分数显示其在推理、数学和编程领域均具有较强实力。

该模型特点是通过深入思考和自省方式解决问题。在处理复杂问题时,它不会直接给出结论,而是模拟人类思维,通过分步推导和不断反思来得出答案。然而,模型目前也存在一些限制,如语言切换不稳定、可能陷入递归推理循环、部分安全机制尚待完善等。

Qwen 团队 指出 ,该模型本质上体现了推理缩放规律 (inference scaling law):允许模型有更长的思考时间,推理能力会相应提升。QwQ 作为开源领域首个专注推理能力的大模型,为开发者提供了一个可直接使用的基础工具。

(DataLearner)
一个小站的自留地
OpenAI发布文生视频大模型Sora OpenAI宣布发布全新的Diffusion大模型Sora,这是一个可以生成最长60秒视频的视频生成大模型,可以生成非常逼真的电影画面版的视频。 它可以生成持续时间、宽高比和分辨率不同的视频和图像,最长可达一分钟的高清视频。 Sora模型目前还处于测试阶段,并没有开放给大众使用。 (Datalearner) —————— 尽管仍然存在不少改进空间,但与当前文生视频模型比较来看,Sora的进步是变革性的。特别是在物理模拟和前后稳定性方面。 有评论称其「可…
OpenAI Sora API 意外泄露三小时后紧急关闭

北京时间 11 月 26 日,OpenAI 旗下视频生成模型 Sora 的 API 访问权限意外泄露。该 API 原本仅提供给特定艺术家进行测试,但被部分测试者在 Hugging Face 平台上部署了公开访问的前端界面。

泄露的版本为 Sora Turbo,支持生成 1080p 分辨率、10 秒长度的视频。根据请求负载显示,完整版本包含多种模型和风格选项,但泄露版本仅开放了「自然」风格。

OpenAI 在泄露大约三小时后即关闭了相关访问权限。在此期间,众多用户已通过该接口生成了大量测试视频,这些视频均带有 OpenAI 的视觉水印。

参与测试的艺术家发布了一封措辞强烈的公开信。这些艺术家在信中表示,他们在为这家估值 1500 亿美元的公司提供无偿的错误测试和反馈。艺术家们的创作需要经过 OpenAI 团队的审批才能对外分享,这让他们感觉更像是一场公关活动,而非真正的创意合作。

公开信呼吁艺术家们转向开源工具,并列举了包括 CogVideoX、Mochi 1、LTX Video、Pyramid Flow 等替代方案。目前该公开信已获得 68 位签名者支持。

这一事件引发了对 AI 时代艺术创作者权益的讨论。艺术家们认为,新技术本身的价值不应凌驾于艺术创作的价值之上,AI 企业需要重新思考与创作者的合作方式。

(机器之心、数字生命卡兹克)
一个小站的自留地
微软再次出现服务中断 微软服务状态网站上的一则警报称,此次宕机影响了微软Azure、Microsoft 365、云系统Intune和Entra 等。 当地时间7月30日上午,微软公司在社交媒体平台 X 上发布的帖子中表示,该问题影响了“多项 Microsoft 365 服务和功能”。Microsoft 365 包括 Outlook、Word 和 Excel 等常用生产力应用程序。微软公司在帖子中表示:“我们目前正在调查多项 Microsoft 365 服务和功能的访问问题和性能下降。有关详细信息,请参…
Microsoft 全球多项在线服务出现大规模中断

2024 年 11 月 25 日,Microsoft 的 Outlook 和 Teams 等核心服务出现全球性中断。故障最早于当日上午 8 时(北京时间 21 时)左右开始出现,并在随后数小时内持续发酵,影响了全球范围内的企业和个人用户。

Microsoft 表示,此次事件源于一项近期的配置变更,导致用户无法访问 Exchange Online 或使用 Microsoft Teams 日历功能。公司随即着手回滚相关更改并部署修复方案,同时对部分处于异常状态的服务器进行手动重启。

到当地时间 11 时,Microsoft 表示修复方案已覆盖约 98% 的受影响环境,但恢复进度比预期要慢。直至当日晚间 11 时左右,公司宣布已恢复大部分受影响服务的功能,仅有少量用户的网页版 Outlook 仍受影响。Microsoft 预计于 11 月 26 日凌晨完成所有服务的全面恢复。

此次服务中断虽然规模较大,但与今年夏季由 CrowdStrike 软件问题引发的、被称为「史上最大 IT 中断」的事件相比仍有差距。后者曾导致航班停飞、医院系统瘫痪,并给财富 500 强企业造成超过 50 亿美元的直接损失。

(综合 NBC New York、Windows Central、CNN)
一个小站的自留地
DeepSeek-R1-Lite 预览版上线 DeepSeek 发布了R1系列推理模型,使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。 该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。 该模型目前可以仅在网页版使用,DeepSeek 方面表示,之后,正式版 DeepSeek-R1 模型将完全开源,DeepSeek 也将公开技术报告,并部署 API 服务。 (DeepSeek)
Kimi 上线数学推理模型 k0-math

国内 AI 大模型公司月之暗面推出 k0-math 模型驱动的 Kimi 数学版,官方宣称「k0-math 模型数学能力对标 o1 系列」。

月之暗面

——————

根据SuperCLUE-Math6o「小学奥数」基准测评总榜,数学模型 k0-math 在数学任务中表现出对应用题和计算较强的处理能力,但在行程问题和几何任务上略显薄弱。

与o1-preview相比,数学模型 k0-math 在 SC-math6o 上仍有 18 分的差距,尚有较大的提升空间,目前排名国内第2。国内排名第一是深度求索早前发布的 DeepSeek-R1-Lite-Preview 模型。
一个小站的自留地
DeepSeek-V2.5 领跑国内大模型:刷新多项国产记录 DeepSeek-AI 团队于 9 月初发布并开源了全新模型 DeepSeek-V2.5,近日在 LMSYS 组织的全球大模型竞技场(ChatBotArena)中表现出色,刷新了国产模型的多项历史纪录。 在最新公布的 ChatBotArena 排名中,DeepSeek-V2.5 位列国内大模型第一,成功超越 Yi-Large-Preview、Qwen-Plus-0828 和 GLM-4-0520 等国内最强闭源模型,并在 8 个单项能力上均领跑国内模型。这一成绩标志着…
DeepSeek-R1-Lite 预览版上线

DeepSeek 发布了R1系列推理模型,使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。

该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。

该模型目前可以仅在网页版使用,DeepSeek 方面表示,之后,正式版 DeepSeek-R1 模型将完全开源,DeepSeek 也将公开技术报告,并部署 API 服务

DeepSeek
一个小站的自留地
阿里云新加坡机房 10 日发生火灾 北京时间 2024 年 9 月 10 日 10:20,阿里云监控发现新加坡地域可用区 C 出现网络访问异常,部分云产品服务因此中断。根据阿里云发布的公告,此次事故由新加坡机房内锂电池爆炸引发火灾,导致机房温度急剧升高。目前,消防人员已抵达现场进行处理,但由于火情复杂,部分云产品的恢复工作仍在进行中。 阿里云健康看板显示,目前新加坡区域仍有服务未恢复。官方最后一则故障更新来自 11 日凌晨01:46,称接当地消防要求,因消防浇水持续进行,机房开始出现积水和渗漏,电路存在短路风险,新加坡可用区C…
11月11日上午,「支付宝崩了」话题登上微博热搜。

部分网友反映支付宝 App 无法正常使用,他们遇到了同一笔订单被扣款三次、余额宝转账至余额后余额显示为0、线下支付后商家未收到款项但银行卡已被扣款等问题。

据支付宝官方微博,因系统消息库出现局部故障,导致部分用户的支付功能受到影响。该故障不会影响用户的资金安全,截止上午10点50分故障已经修复。

(新浪财经)

——————

本频信源从蚂蚁员工处了解到,故障复盘后,蚂蚁科技向内部技术员工发布邮件,宣布由 CTO 在内的 4 位高管承担此次故障主要责任。该内部邮件同时对双十一期间的值班员工表达了感谢。
一个小站的自留地
xAI 正式发布 Grok-2 AI 模型 xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。 Grok-2 相比前代模型有显著提升: - 增强了聊天、编码和推理能力 - 新增图像生成功能,可在 X 平台上创建图像 - 性能有望超越当前主流 AI 模型 目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI…
Anthropic 与 xAI 同日发布模型 API

Anthropic 和 xAI 分别在今日宣布开放其最新大语言模型的 API 访问。Anthropic 的 Claude 3.5 Haiku 现已可通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用,而 xAI 的 Grok 则开启了公测。

Claude 3.5 Haiku 在性能上接近 Sonnet,在编程和代理任务上超越了除 3.5 Sonnet 外的所有此前 Claude 模型。该模型具备更新至 2024 年 7 月的知识库。然而,其定价引发争议 —— 输入价格为每百万词元 1 美元,输出价格为每百万词元 5 美元,较前代产品涨价 4 倍。对比同类产品,如 GPT-4o Mini 和 Gemini 1.5 Flash,Haiku 在性能相近的情况下价格明显偏高

与此同时,xAI 推出的代号「grok-beta」的新版本 Grok 支持 128,000 词元的上下文长度,并提供函数调用和系统提示词功能。值得一提的是,Grok API 完全兼容 OpenAI 和 Anthropic 的 API,开发者只需修改基础 URL 和 API 密钥即可完成迁移。xAI 还宣布将在下周推出支持图像输入的多模态版本。

在价格方面,Grok API 将提供每月 25 美元的免费额度直至 2024 年底。对于已购买预付费额度的用户,将在 11 月和 12 月获得额外的免费额度。

(新智元)
一个小站的自留地
零一万物公司正式发布新旗舰模型 Yi-Lightning 零一万物公司正式发布了其新旗舰模型 Yi-Lightning(闪电),这款模型在大模型竞技场(Chatbot Arena)上表现优异,总榜单并列第 6,数学分榜并列第 3,代码等其他分榜也名列前茅。其总成绩几乎与马斯克最新的 xAI 大模型 Grok-2-08-13 持平,超过了 GPT-4-0613 等顶级模型。此外,智谱 AI 的 GLM-4-Plus 也进入了总榜,排名第 9。 在大模型竞技场的各类分榜中,Yi-Lightning 表现突出:…
腾讯开源大规模 MoE 模型及 3D 生成模型

腾讯在北京举办的混元发布会上宣布开源两款人工智能模型:混元 Large (Hunyuan-Large) 和混元 3D 1.0 (Hunyuan3D-1.0)。

混元 Large 是目前业界最大规模的开源混合专家 (MoE) 大语言模型,总参数量达到 389B,实际激活参数量为 52B。该模型具备 256K 的上下文长度,通过优化的 KV 缓存压缩技术可节省 50% 的 GPU 内存使用。在 MMLU、MMLU-Pro 和 CMMLU 等多个基准测试中,混元 Large 表现优于同规模的 Llama 405B 和 Mixtral-8x22B 等模型。

混元 3D 1.0 是首个同时支持文字和图像生成的开源 3D 生成模型。该模型采用级联架构,通过多视图扩散模型和前馈重建模型两个阶段,可在约 11 秒内完成 3D 模型生成。目前该模型已在腾讯地图、元宝 APP 等多个产品中落地,支持 UGC 3D 创作、商品素材合成等应用场景。

腾讯还将推出一个专门用于评估大模型长文本处理能力的测试数据集「企鹅卷轴」。

两款模型已在 GitHub 和 Hugging Face 平台开源。其中混元 Large 将同步支持在腾讯云 TI 平台上的业务精调及部署,而混元 3D 1.0 的体验入口则开放在元宝 APP 的「3D 角色梦工厂」功能中。

混元 Large:https://github.com/Tencent/Hunyuan-Large
混元 3D:https://github.com/Tencent/Hunyuan3D-1

(综合媒体报道)
ChatGPT 推出实时网络搜索功能:无广告、支持免费用户

OpenAI 正式为 ChatGPT 推出联网搜索功能。新功能支持实时网页搜索,并可在对话中展示包括天气、股市、地图等多媒体内容。所有回答都会注明信息来源,并提供原文链接。

该功能目前已向付费用户和 SearchGPT 候补名单用户开放,未来数周内将向企业和教育用户开放,数月内将向所有免费用户开放。

与传统搜索引擎不同,OpenAI 明确表示 ChatGPT 搜索不会投放广告。

——————

谷歌 AI Studio 迎来重要更新:Flash-8B 正式发布、支持搜索导航

谷歌宣布了 AI Studio 的三项重要更新:

性能与 1.5 模型相当的 Gemini 1.5 Flash-8B 正式发布,其特点是成本降低 50%,处理速度提升一倍,适用于聊天、翻译等高频场景。

所有 Gemini 1.5 模型现已支持谷歌搜索导航功能,可通过搜索结果提供更准确的实时信息。

新增的 Compare Mode 功能支持同时测试多个 Gemini 和 Gemma 模型,方便开发者选择最适合的解决方案。
一个小站的自留地
本频从多个信源观察到,OpenAI 的风控政策正在近期进一步升级。 对于部分长期使用网关登录的账号(如部分合租面板、逆向号池),OpenAI 强制更改了密码,要求开启两步验证。 对于部分长期使用非家宽节点登录的账户,OpenAI 会在不通知用户的情况下更改模型为较低智能的 gpt-4o-mini,表现为无法调用任何工具,如使用记忆、联网、生图等。用户上传文件或图片后,OpenAI 会自动将该对话交由 gpt-4o 处理。并正常消耗配额。全程完全为黑箱操作,用户侧无提示。付费用户也可能受到影响。 对于部分有风险的…
本频从多个信源观察到,OpenAI 于今日再一次对于部分长期使用网关登录的账号(如部分合租面板、逆向号池)强制更改了密码。这或许将成为常态化的攻防。

同日,多个号商的信源表示,用于预付费 OpenAI 额度的账号或 Azure 账号被封禁。此次封禁规模是自 GPT-4o 发布以来最大。

早些时候,ChatGPT 网页版面向会员用户推出了历史记录检索功能。

另外,根据网传图片,OpenAI 在其面向开发者的 DevDay 活动上表示,o1 模型即将推出包括流式输出、图片输入、结构化输出、工具调用等新特性。
GitHub Universe 2024:AI 驱动开发体验迈向新纪元

GitHub 于近日举办的 2024 年 Universe 大会上发布了一系列重磅更新,进一步强化其作为全球最大开发者社区的地位。据 GitHub 官方博客报道,自 10 年前首次举办以来,GitHub Universe 一直致力于优化开发者体验。今年的活动标志着该平台在 AI 驱动开发方面的重要里程碑。


AI 原生体验全面升级

GitHub 为其 AI 编程助手 Copilot 引入了多种新的 AI 模型,包括 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 以及 OpenAI 的 o1-preview 和 o1-mini。这些模型将首先在 Copilot Chat 中推出,并在未来几周内陆续上线。无论是个人开发者还是企业团队,都可以根据具体需求选择最适合的 AI 模型。

新推出的 Copilot Workspace 整合了 Copilot Code Review、Copilot Autofix 以及第三方 Copilot Extensions 功能,旨在加速代码审查和修复流程。开发者可以更快速地完善、验证和实施 Copilot 自动生成的代码建议,显著提升合并请求的准备速度。

GitHub Spark:让创意变为现实

GitHub 发布了全新产品 GitHub Spark,这是一款以自然语言驱动的工具,专注于个人和趣味性的软件开发。Spark 旨在帮助更多人实现成为开发者的梦想,用户可以通过它快速开发小型应用程序,将创意转化为现实。

提升开发效率与安全性

GitHub 还宣布了一系列更新,旨在提高软件开发的速度和安全性。这些更新包括代码补全改进、隐式代理选择以及对 C++ 和 .NET 的更好支持,以提升各类集成开发环境(IDE)中的工作效率。

在安全方面,GitHub 推出了 Copilot Autofix 功能,可以快速修复代码中的漏洞,确保从 IDE 到生产环境的代码更为安全。

企业级体验增强

为满足企业对治理和合规性的需求,GitHub 引入了新功能,为管理员提供了更多用户管理、仓库策略和安全工作流的控制权。同时,GitHub Actions 和 API 活动中新增了基于 Arm64 的运行器和性能跟踪功能,以提升计算资源和工作流效率。
一个小站的自留地
Arc 浏览器的 Windows 版本开放预约。 我自己正在慢慢把Mac平台的Arc作为主力浏览器,一段时间用下来还是比较舒服的,特别是Space的划分设计对效率确实有提高。 将来有机会的话可能会写文章介绍下。
Arc 浏览器宣布停止开发,转向全新产品

Arc 浏览器近日宣布将停止开发新功能,转而专注于一款全新浏览器产品的开发。这一决定主要源于 Arc 浏览器的复杂性导致用户上手难度过高,从而限制了其成为主流产品的可能性。

据 The Verge 报道,The Browser Company 的首席执行官 Josh Miller 表示,尽管 Arc 的用户十分喜爱其侧边栏、空间和配置文件等自定义功能,但这些功能也成为了其吸引更多用户的障碍。Miller 指出,用户更希望浏览器能够「更快、更流畅和更安全」,而不是不断添加新特性。

根据 Android Authority 的报道,The Browser Company 计划将资源投入到一个全新浏览器的开发上。这款新浏览器预计将在明年年初推出,采用水平选项卡设计,并深度集成 AI 工具,以帮助用户简化工作流程。Miller 强调,新产品将更易于普通用户接受,同时逐步揭示其高级功能。公司希望通过这种方式,缩小普通用户和高级工具之间的差距。

值得注意的是,尽管 Arc 浏览器将不再积极开发新功能,但现有用户仍可继续使用,并获得稳定性更新和错误修复。据蓝点网报道,Arc 浏览器不会被彻底抛弃,而是转向维护更新模式。
Back to Top