抄DeepSeek！Claude推出超长提示缓存：成本砍掉 90%，延迟爆降 85%

前段时间国产大模型DeepSeek API推出了磁盘上的上下文缓存，无需代码更改！这一新功能自动将频繁引用的上下文缓存在分布式存储上，将API成本降低高达90%，支持无限并发！对于一个高引用的128K提示，第一个令牌的延迟从13秒缩短到仅500毫秒

受益场景：多轮对话，后续轮次命中先前上下文缓存。对相同文档/文件重复查询的数据分析。重复引用仓库的代码分析/调试

今天claude也推出类似功能，AnthropicAI 宣布Claude 「Prompt 缓存」能力发布，成本降低 90%，延迟降低 85%！

Claude可在多个 API 调用之间重用一本书级别长度的上下文，同时提高响应速度和理解能力，现在就可用！

blog: https://www.anthropic.com/news/prompt-caching

现在开发者能够在 API 调用之间缓存常用的上下文。通过提示词缓存，客户可以为 Claude 提供更多的背景知识和示例输出。提示词缓存目前在 Claude 3.5 Sonnet 和 Claude 3 Haiku 的公开测试版中可用，Claude 3 Opus 的支持也即将推出

提示词缓存在你希望一次发送大量提示词上下文然后在后续请求中重复引用这些信息的情况下效果显著，包括：

会话智能体： 降低扩展对话的成本和延迟，尤其是那些包含长指令或上传文档的对话。

代码助手： 通过在提示词中保留代码库的摘要版本来提高自动补全和代码库问答的效果。

大文档处理： 将完整的长篇材料（包括图片）纳入提示词中，而不增加响应延迟。

详细指令集： 共享广泛的指令、程序和示例列表以微调 Claude 的响应。开发人员通常在提示词中包含几个示例，但通过提示词缓存，您可以通过包括数十个多样化的高质量输出示例来获得更好的性能

智能搜索和工具使用： 提高多轮工具调用和迭代变化场景的性能，因为这些场景通常每一步都需要新的 API 调用

与书籍、论文、文档、播客转录本和其他长篇内容对话： 通过将整个文档嵌入提示词中，让知识库更具活力，并让用户对其提问

早期客户在多种使用场景中通过提示词缓存实现了显著的速度和成本改进——从包含完整知识库到 100 次样本提示再到将对话的每一次转折纳入提示词中

使用场景	无缓存时的延迟（首个 token 的时间）	缓存时的延迟（首个 token 的时间）	成本降低
与书籍聊天（100,000 token 的缓存提示）	11.5s	2.4s (-79%)	-90%
多次样本提示（10,000 token 提示）	1.6s	1.1s (-31%)	-86%
多轮对话（带有长系统提示的 10 轮对话）	10s	~2.5s (-75%)	-53%

缓存的提示根据缓存的输入 token 数量及其使用频率定价。写入缓存的成本比任何给定模型的基础输入 token 价格高 25%，而使用缓存内容则便宜得多，仅为基础输入 token 价格的 10%

模型	输入	提示词缓存	输出
Claude 3.5 Sonnet	– 迄今为止最智能的模型 – 200K 上下文窗口	$3 / MTok	$3.75 / MTok – 缓存写入 $0.30 / MTok – 缓存读取
Claude 3 Opus	– 适用于复杂任务的强大模型 – 200K 上下文窗口	$15 / MTok	提示词缓存即将推出 $18.75 / MTok – 缓存写入 $1.50 / MTok – 缓存读取
Claude 3 Haiku	– 最快、最具成本效益的模型 – 200K 上下文窗口	$0.25 / MTok	$0.30 / MTok – 缓存写入 $0.03 / MTok – 缓存读取