สถานการณ์
Workload ที่พบบ่อย 4 แบบ พร้อมราคาจริงแบบไม่อ้อมค้อม
14,300 in · 500 out · 60% cached
ภูเขาน้ำแข็งที่ซ่อนอยู่: คำถามแค่ 10 tokens แต่จ่าย 14,800 tokens
ผู้ใช้พิมพ์แค่ 10 tokens แต่ system prompt, ตัวอย่าง few-shot, ประวัติการสนทนา, RAG chunks และ tool definitions ดันยอดรวมไปที่ 14,300 input tokens แบบเงียบ ๆ นี่คือบิลที่ไม่มีใครเห็น
เปิดสถานการณ์นี้ในเครื่องคิดเลข
8,000 in · 300 out · 85% cached
RAG chatbot ฝ่ายช่วยเหลือลูกค้า
Cache hit สูง output ปานกลาง — Cache คือสิ่งที่ตัดสิน unit economics
เปิดสถานการณ์นี้ในเครื่องคิดเลข
60,000 in · 3,000 out · 70% cached
Coding agent ที่ใช้ tools
Context ยาว tool definitions หนัก output ปานกลาง — context window คือศัตรูตัวจริง
เปิดสถานการณ์นี้ในเครื่องคิดเลข
80,000 in · 400 out · 0% cached
สรุปเอกสารยาว
Input มหาศาล output จิ๋วเดียว ตรงข้ามกับสัญชาตญาณ ไม่ได้แพงอย่างที่คิด
เปิดสถานการณ์นี้ในเครื่องคิดเลข