📚 সমস্ত অধ্যায় দেখুন
অধ্যায়/ফেজ 9 · Phase 9 · System Design
9.3২৫ মিনিট পড়া54 / 68

Latency vs Accuracy Tradeoff

Tradeoffs

কোথায় কখন কোনটা priority।

Hook — সেরা মানে কী?

৯৯% accuracy ভালো — কিন্তু ১০ সেকেন্ড লাগলে user চলে যাবে। ৯৫% accuracy ৫০ms এ অনেক সময় ব্যবসায়িকভাবে বেশি লাভজনক। Engineering মানেই tradeoff এর শিল্প।

Tradeoff এর Axes

  • Accuracy / Quality।
  • Latency (p50, p95, p99)।
  • Throughput (QPS)।
  • Cost ($/1k request)।
  • Memory / GPU footprint।
  • Freshness (model + data)।
  • Explainability।
  • Fairness / Bias।

Decision Framework

  • ১. Business metric ঠিক করো (CTR, revenue, save রatio)।
  • ২. SLO ঠিক করো (p95 < 100ms, availability 99.9%)।
  • ৩. কোন accuracy gain business এ কতটা মূল্যবান — quantify করো।
  • ৪. Cost আর latency এর সাথে tradeoff curve আঁকো।
  • ৫. সবচেয়ে ভালো ‘Pareto frontier’ select করো।

Tradeoff Tools

  • Cascading / Two-tower — cheap → expensive model chain।
  • Early Exit Network — সহজ sample আগে বের।
  • Adaptive computation — confidence-based depth।
  • Distillation — accuracy কাছাকাছি, latency ছোট।
  • Quantization — minor accuracy drop, big speed up।
  • Caching — repeat query free response।
  • Approximate ANN (HNSW, ScaNN) — exact-এর কাছাকাছি অনেক দ্রুত।

Example — Search Ranking

two-stage
Stage 1 (Retrieval): BM25 + ANN
  → millions → 1,000 candidates
  → ~10 ms, ~95% recall

Stage 2 (Ranking): Light GBM
  → 1,000 → 100
  → ~20 ms, AUC 0.82

Stage 3 (Re-rank): BERT cross-encoder
  → 100 → 10
  → ~40 ms, AUC 0.91

Total p95: ~80ms, final quality near full BERT (~0.92)

LLM-specific Tradeoffs

  • Model size — 3B vs 70B vs GPT-4।
  • Quantization — INT4 ≈ 90% quality, ১/৪ memory।
  • Speculative decoding — quality same, ২-৩x দ্রুত।
  • Context window — বড় context = দাম + latency বেশি।
  • Routing — সহজ query → ছোট model, কঠিন query → বড় model।
  • Caching — exact + semantic cache।

Code — Model Router

router.py
def route(query: str) -> str:
    score = complexity_classifier.predict([query])[0]  # 0-1
    if score < 0.3:
        return "gpt-4o-mini"      # cheap & fast
    elif score < 0.7:
        return "llama-3-70b"      # mid
    else:
        return "gpt-4o"           # premium

def answer(query: str):
    cache_hit = semantic_cache.get(query, threshold=0.95)
    if cache_hit: return cache_hit
    model = route(query)
    out = call_llm(model, query)
    semantic_cache.set(query, out)
    return out

Mental Models

  • ‘Diminishing returns’ — শেষ ১% accuracy এর দাম প্রায়শই প্রথম ৫০% এর সমান।
  • ‘Latency tax’ — ১০০ms slower = কয়েক % conversion drop (Amazon study)।
  • ‘Cost per useful request’ — হিসেব করো accuracy-weighted।
  • ‘Right-sizing’ — সবচেয়ে বড় model মানেই সেরা নয়।

Summary

এক নজরে

Tradeoff = Business goal → SLO → Pareto frontier। Cascade, distill, quantize, route, cache — toolkit। শেষ কথা: সেরা model নয়, সেরা system জিতে।