Mehmet Karakose · 16 Nisan 2026 · 3 dk okuma

Token Ekonomisi

AI maliyetlerini takip etmeyen ekipler, 2026'da beklenmedik fiyatlar ile karşılaşabilir, tıpkı cloud faturalarını görmezden gelenler gibi.

Bir CTO geçen ay bana şunu söyledi:

"ChatGPT faturamız bu yıl 3'e katlandı. Kimse tam olarak neden olduğunu bilmiyor."

Bu cümle, 2026 yılının en büyük kurumsal kör noktasını özetliyor: token ekonomisi.

LLM'ler artık oyuncak değil. Şirketlerin bilançolarında gerçek bir kalem haline geldiler. Ama çoğu yönetici hâlâ bu maliyeti "IT gideri" olarak görüyor, tıpkı 2010'da cloud faturalarını görmezden gelenler gibi.

Bu yazıda 4 katmanı açacağım: teknik temel, prompt disiplini, maliyet yapısı ve stratejik gelecek. Sonunda da yöneticiler için uygulanabilir bir checklist bırakacağım.

1. Teknik Temel: Token Aslında Nedir?

Token, modelin "kelime" birimidir. Ama birebir kelime değil.

"İstanbul" tek token olabilir. "Kadıköy'den" üç token olabilir. İngilizce genelde daha az token kullanır — bu yüzden Türkçe prompt yazmak daha pahalıya gelir. Çoğu yönetici bunu bilmiyor.

Context window ise modelin tek seferde işleyebildiği token miktarı. GPT-5, Claude Opus 4.7 gibi modern modeller 400K–2M token'a kadar çıkabiliyor. Kulağa harika geliyor, değil mi?

Değil. Çünkü:

Uzun context = yüksek maliyet
Uzun context = yavaş cevap
Uzun context = daha fazla "lost in the middle" hatası

Büyük context window'u bir yetenek değil, bir tuzak olarak düşünün.

2. Prompt Disiplini: Çoğu Token Nereye Gidiyor?

Bir kullanıcı chatbot'a "merhaba, sipariş durumumu öğrenebilir miyim?" yazar. Bu 10 token. Ama arkada olan biten:

Sistem promptu: 800 token
Few-shot örnekler: 1.500 token
Konuşma geçmişi: 4.000 token
RAG'den gelen ürün dokümanları: 6.000 token
Tool/function tanımları: 2.000 token

Toplam: ~14.300 token input. Üstüne 500 token cevap.

Kullanıcı bir mesaj yazdı: siz 14.800 token ödediniz.

Bunu somut görmek için hidden iceberg senaryosunu açın.

3. Maliyet Yapısı: Input vs Output Ekonomisi

En kritik yanlış anlaşılma burada.

Katman	Cached input'a kıyasla
Cached input	1x
Normal input	~10x
Output	~30–50x

Output, input'a kıyasla da 3–5 kat daha pahalıdır. Çünkü model her output token için tüm context üzerinden attention çalıştırır.

Pratik sonuç: "Detaylı açıkla" demek, faturayı 3–5'e katlayabilir.

Çözümler basit:

max_tokens parametresini agresif tutmak
"Özetle, 3 cümleyi geçme" gibi structural constraint'ler
Output'u JSON / structured format'a zorlamak
Prompt caching kullanmak — %90'a varan tasarruf

4. Stratejik Gelecek: Token, Yeni Bulut

2015'te "cloud maliyeti" marjinal bir konuydu. 2020'de FinOps adında yepyeni bir disiplin doğdu. Bugün her Fortune 500 şirketinin bir Cloud Cost Manager'ı var.

Token ekonomisi aynı yoldan gidiyor.

AI FinOps rolleri — token maliyetini optimize eden uzmanlar
Model routing sistemleri standart olacak
Token budget'ları departman bazında tahsis edilecek
Küçük, uzmanlaşmış modeller (SLM) belirli görevlerde büyük modellerin yerini alacak
Semantic caching yaygınlaşacak

Yöneticiler İçin Checklist

Geçen ay kaç token kullandık? Hangi departmanda?
Hangi görevler için hangi modelleri kullanıyoruz?
Prompt caching aktif mi? Ne kadar tasarruf sağlıyor?
En pahalı 10 prompt'umuz hangileri?
Kullanıcı başına ortalama token maliyetimiz nedir?
Output uzunluğunu nasıl kontrol ediyoruz?
RAG sistemimiz her sorguda gereksiz context gönderiyor mu?

Sonuç

Token, 2026'nın yeni kurumsal gider kalemi. Görünmez ama her yerde. Fatura geldiğinde geç kalmış olursunuz.

CFO'nuzla bir kahve için. Son 3 ayın LLM faturasını açın. Birlikte bakın.

Orijinal yazı Medium'da: medium.com/@mehmetkarakose/token-ekonomisi