Kịch bản
Bốn workload phổ biến, định giá thẳng thắn.
14,300 in · 500 out · 60% cached
Tảng băng ẩn: câu hỏi 10 token tốn 14.800 token
Người dùng gõ 10 token. System prompt, ví dụ few-shot, lịch sử hội thoại, RAG chunks và tool definitions âm thầm đẩy tổng lên 14.300 input tokens. Đây là hóa đơn không ai nhìn thấy.
Mở kịch bản này trong máy tính
8,000 in · 300 out · 85% cached
RAG chatbot hỗ trợ khách hàng
Tỉ lệ cache hit cao, output trung bình. Cache quyết định sống còn của unit economics.
Mở kịch bản này trong máy tính
60,000 in · 3,000 out · 70% cached
Coding agent dùng tools
Context dài, tool definitions nặng, output trung bình. Context window là kẻ thù.
Mở kịch bản này trong máy tính
80,000 in · 400 out · 0% cached
Tóm tắt tài liệu dài
Input khổng lồ, output bé tí. Trái với cảm giác, không đắt như bạn tưởng.
Mở kịch bản này trong máy tính