Hook — সেরা মানে কী?
৯৯% accuracy ভালো — কিন্তু ১০ সেকেন্ড লাগলে user চলে যাবে। ৯৫% accuracy ৫০ms এ অনেক সময় ব্যবসায়িকভাবে বেশি লাভজনক। Engineering মানেই tradeoff এর শিল্প।
Tradeoff এর Axes
- Accuracy / Quality।
- Latency (p50, p95, p99)।
- Throughput (QPS)।
- Cost ($/1k request)।
- Memory / GPU footprint।
- Freshness (model + data)।
- Explainability।
- Fairness / Bias।
Decision Framework
- ১. Business metric ঠিক করো (CTR, revenue, save রatio)।
- ২. SLO ঠিক করো (p95 < 100ms, availability 99.9%)।
- ৩. কোন accuracy gain business এ কতটা মূল্যবান — quantify করো।
- ৪. Cost আর latency এর সাথে tradeoff curve আঁকো।
- ৫. সবচেয়ে ভালো ‘Pareto frontier’ select করো।
Tradeoff Tools
- Cascading / Two-tower — cheap → expensive model chain।
- Early Exit Network — সহজ sample আগে বের।
- Adaptive computation — confidence-based depth।
- Distillation — accuracy কাছাকাছি, latency ছোট।
- Quantization — minor accuracy drop, big speed up।
- Caching — repeat query free response।
- Approximate ANN (HNSW, ScaNN) — exact-এর কাছাকাছি অনেক দ্রুত।
Example — Search Ranking
two-stage
Stage 1 (Retrieval): BM25 + ANN
→ millions → 1,000 candidates
→ ~10 ms, ~95% recall
Stage 2 (Ranking): Light GBM
→ 1,000 → 100
→ ~20 ms, AUC 0.82
Stage 3 (Re-rank): BERT cross-encoder
→ 100 → 10
→ ~40 ms, AUC 0.91
Total p95: ~80ms, final quality near full BERT (~0.92)LLM-specific Tradeoffs
- Model size — 3B vs 70B vs GPT-4।
- Quantization — INT4 ≈ 90% quality, ১/৪ memory।
- Speculative decoding — quality same, ২-৩x দ্রুত।
- Context window — বড় context = দাম + latency বেশি।
- Routing — সহজ query → ছোট model, কঠিন query → বড় model।
- Caching — exact + semantic cache।
Code — Model Router
router.py
def route(query: str) -> str:
score = complexity_classifier.predict([query])[0] # 0-1
if score < 0.3:
return "gpt-4o-mini" # cheap & fast
elif score < 0.7:
return "llama-3-70b" # mid
else:
return "gpt-4o" # premium
def answer(query: str):
cache_hit = semantic_cache.get(query, threshold=0.95)
if cache_hit: return cache_hit
model = route(query)
out = call_llm(model, query)
semantic_cache.set(query, out)
return outMental Models
- ‘Diminishing returns’ — শেষ ১% accuracy এর দাম প্রায়শই প্রথম ৫০% এর সমান।
- ‘Latency tax’ — ১০০ms slower = কয়েক % conversion drop (Amazon study)।
- ‘Cost per useful request’ — হিসেব করো accuracy-weighted।
- ‘Right-sizing’ — সবচেয়ে বড় model মানেই সেরা নয়।
Summary
এক নজরে
Tradeoff = Business goal → SLO → Pareto frontier। Cascade, distill, quantize, route, cache — toolkit। শেষ কথা: সেরা model নয়, সেরা system জিতে।