परिदृश्य

चार आम workloads, ईमानदारी से लागत के साथ।

14,300 in · 500 out · 60% cached

छुपा हुआ हिमशैल: 10-token का सवाल 14,800 tokens में पड़ता है

User 10 tokens लिखता है। System prompt, few-shot उदाहरण, बातचीत का इतिहास, RAG chunks और tool definitions चुपचाप कुल को 14,300 input tokens तक पहुँचा देते हैं। यही वह बिल है जो किसी को नहीं दिखता।

इस परिदृश्य को कैलकुलेटर में खोलें

8,000 in · 300 out · 85% cached

RAG ग्राहक सहायता chatbot

ऊँचा cache hit rate, मध्यम output। यहाँ unit economics को cache ही बनाता या बिगाड़ता है।

इस परिदृश्य को कैलकुलेटर में खोलें

60,000 in · 3,000 out · 70% cached

Tools के साथ coding agent

लंबा context, भारी tool definitions, मध्यम output। यहाँ context window ही असली दुश्मन है।

इस परिदृश्य को कैलकुलेटर में खोलें

80,000 in · 400 out · 0% cached

लंबे दस्तावेज़ का सारांश

बहुत बड़ा input, बहुत छोटा output। दिखता जितना महँगा है, उतना है नहीं।

इस परिदृश्य को कैलकुलेटर में खोलें