Szenarien
Vier typische Workloads, ehrlich kalkuliert.
14,300 in · 500 out · 60% cached
Der versteckte Eisberg: eine 10-Token-Frage kostet 14.800 Tokens
Der Nutzer tippt 10 Tokens. System-Prompt, Few-Shot-Beispiele, Konversationsverlauf, RAG-Chunks und Tool-Definitionen treiben die Summe still auf 14.300 Input-Tokens. Das ist die Rechnung, die niemand sieht.
Dieses Szenario im Rechner öffnen
8,000 in · 300 out · 85% cached
RAG-Chatbot für Kundensupport
Hohe Cache-Trefferrate, mittlerer Output. Der Cache entscheidet über die Unit Economics.
Dieses Szenario im Rechner öffnen
60,000 in · 3,000 out · 70% cached
Coding Agent mit Tools
Langes Context, schwere Tool-Definitionen, mittlerer Output. Das Context-Window ist der Feind.
Dieses Szenario im Rechner öffnen
80,000 in · 400 out · 0% cached
Zusammenfassung langer Dokumente
Riesiger Input, winziger Output. Erstaunlich: gar nicht so teuer, wie es aussieht.
Dieses Szenario im Rechner öffnen