Szenarien

Vier typische Workloads, ehrlich kalkuliert.

14,300 in · 500 out · 60% cached

Der versteckte Eisberg: eine 10-Token-Frage kostet 14.800 Tokens

Der Nutzer tippt 10 Tokens. System-Prompt, Few-Shot-Beispiele, Konversationsverlauf, RAG-Chunks und Tool-Definitionen treiben die Summe still auf 14.300 Input-Tokens. Das ist die Rechnung, die niemand sieht.

Dieses Szenario im Rechner öffnen

8,000 in · 300 out · 85% cached

RAG-Chatbot für Kundensupport

Hohe Cache-Trefferrate, mittlerer Output. Der Cache entscheidet über die Unit Economics.

Dieses Szenario im Rechner öffnen

60,000 in · 3,000 out · 70% cached

Coding Agent mit Tools

Langes Context, schwere Tool-Definitionen, mittlerer Output. Das Context-Window ist der Feind.

Dieses Szenario im Rechner öffnen

80,000 in · 400 out · 0% cached

Zusammenfassung langer Dokumente

Riesiger Input, winziger Output. Erstaunlich: gar nicht so teuer, wie es aussieht.

Dieses Szenario im Rechner öffnen