一个小站的自留地
OpenAI 发布大规模服务中断复盘 当地时间 2024 年 12 月 11 日,OpenAI 遭遇了一次严重的全平台服务中断事件。本次事件起因于一个新的遥测服务部署,意外导致了 Kubernetes 控制平面崩溃,进而引发了全系统性的服务降级。事件发生在当地时间下午 3 时 16 分,直至晚间 7 时 38 分才完全恢复。 本次事件的主要原因在于一个新部署的遥测服务配置错误,导致集群中每个节点都执行了大量资源密集型的 Kubernetes API 操作。由于这些操作的开销随集群规模增长,最终使得 Kubernetes…
ChatGPT、API 和 Sora 服务中断,疑因微软数据中心电力故障

当地时间 2024 年 12 月 26 日下午,OpenAI 的 ChatGPT、API 和 Sora 服务出现大面积中断,影响了全球用户。此次中断报告于美国东部时间下午 1:30 左右开始激增,用户无法正常访问或使用这些服务。Downdetector.com 上报告了超过 50,000 起 ChatGPT 服务中断事件,用户尝试使用 ChatGPT 时收到「内部服务器错误」的消息。

OpenAI 在美国东部时间下午 4:05 发布更新,表示正在修复问题,问题由一个未具名的互联网服务提供商引起。截至美国东部时间下午 7:05,ChatGPT 正在恢复,但聊天记录仍未加载,API 和 Sora 已恢复运行。OpenAI 于太平洋标准时间下午 6:04 更新称,ChatGPT 已基本恢复,他们将继续致力于全面修复。

故障原因可能与微软 Azure 数据中心有关。作为 OpenAI 的独家云服务提供商,微软 Azure 当天报告了数据中心出现「电源」问题,这可能是导致 OpenAI 服务中断的原因。The Verge 报道称,南美中部数据中心出现电力故障,影响了多项服务。

这是 ChatGPT 本月第二次中断,此前两周曾发生过一次约 6 小时的中断。

(综合媒体报道)
 
 
Back to Top