परिदृश्य
चार आम workloads, ईमानदारी से लागत के साथ।
14,300 in · 500 out · 60% cached
छुपा हुआ हिमशैल: 10-token का सवाल 14,800 tokens में पड़ता है
User 10 tokens लिखता है। System prompt, few-shot उदाहरण, बातचीत का इतिहास, RAG chunks और tool definitions चुपचाप कुल को 14,300 input tokens तक पहुँचा देते हैं। यही वह बिल है जो किसी को नहीं दिखता।
इस परिदृश्य को कैलकुलेटर में खोलें
8,000 in · 300 out · 85% cached
RAG ग्राहक सहायता chatbot
ऊँचा cache hit rate, मध्यम output। यहाँ unit economics को cache ही बनाता या बिगाड़ता है।
इस परिदृश्य को कैलकुलेटर में खोलें
60,000 in · 3,000 out · 70% cached
Tools के साथ coding agent
लंबा context, भारी tool definitions, मध्यम output। यहाँ context window ही असली दुश्मन है।
इस परिदृश्य को कैलकुलेटर में खोलें
80,000 in · 400 out · 0% cached
लंबे दस्तावेज़ का सारांश
बहुत बड़ा input, बहुत छोटा output। दिखता जितना महँगा है, उतना है नहीं।
इस परिदृश्य को कैलकुलेटर में खोलें