场景
四种常见工作负载,老实定价。
14,300 in · 500 out · 60% cached
隐形冰山:一个 10 token 的问题,账单上是 14,800 token
用户输入 10 个 token。系统提示、few-shot 示例、对话历史、RAG 片段和工具定义悄悄把输入加到 14,300 token。这就是没人注意到的那张账单。
在计算器中打开此场景
8,000 in · 300 out · 85% cached
RAG 客服 chatbot
高缓存命中率、中等输出。Cache 直接决定单位经济模型的好坏。
在计算器中打开此场景
60,000 in · 3,000 out · 70% cached
带工具的 coding agent
长上下文、繁重的工具定义、中等输出。上下文窗口才是敌人。
在计算器中打开此场景
80,000 in · 400 out · 0% cached
长文档摘要
巨量输入、极少输出。反直觉地,没看上去那么贵。
在计算器中打开此场景