一个小站的自留地
DeepSeek 启用上下文硬盘缓存技术,大模型的价格再降低一个数量级 8 月 2 日起, DeepSeek API 将默认启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。 缓存命中的部分,DeepSeek 费用为 0.1元 /百万 tokens。至此,大模型的价格再降低一个数量级。 硬盘缓存服务已经全面上线,用户无需修改代码,无需更换接口,硬盘缓存服务将自动运…
Anthropic 推出 Claude 提示缓存功能,可大幅降低成本

人工智能公司 Anthropic 于 8 月 14 日宣布,在其 API 上推出名为「提示缓存」(Prompt Caching)的新功能。该功能允许开发者在 API 调用之间缓存频繁使用的上下文信息,从而为 Claude 模型提供更丰富的背景知识和输出示例,同时显著降低成本和延迟。

提示缓存功能目前已在 Claude 3.5 Sonnet 和 Claude 3 Haiku 模型的公测版中提供。对于长提示,该功能可以将成本降低高达 90%,延迟降低高达 85%。Anthropic 表示,支持 Claude 3 Opus 模型的缓存功能即将推出。

该功能适用于多种场景,包括:

- 对话代理:减少长时间对话中的成本和延迟
- 代码辅助:通过保留代码库摘要来改进自动补全和问答功能
- 大型文档处理:在不增加响应延迟的情况下处理长篇内容
- 详细指令集:提供更多指令和示例来优化 Claude 的响应

Anthropic 为缓存的提示采用了新的定价模式。写入缓存的成本比基本输入令牌价格高 25%,而使用缓存内容的成本仅为基本价格的 10%。缓存的有效期为 5 分钟,每次使用都会重置计时。

DeepSeek 和 Gemini 都在早前宣布支持了上下文缓存,其中DeepSeek 的上下文缓存时间为约 24 小时。

(Anthropic)
 
 
Back to Top