Latency vs Accuracy Tradeoff — মেশিন লার্নিং

Hook — সেরা মানে কী?

৯৯% accuracy ভালো — কিন্তু ১০ সেকেন্ড লাগলে user চলে যাবে। ৯৫% accuracy ৫০ms এ অনেক সময় ব্যবসায়িকভাবে বেশি লাভজনক। Engineering মানেই tradeoff এর শিল্প।

Tradeoff এর Axes

Accuracy / Quality।
Latency (p50, p95, p99)।
Throughput (QPS)।
Cost ($/1k request)।
Memory / GPU footprint।
Freshness (model + data)।
Explainability।
Fairness / Bias।

Decision Framework

১. Business metric ঠিক করো (CTR, revenue, save রatio)।
২. SLO ঠিক করো (p95 < 100ms, availability 99.9%)।
৩. কোন accuracy gain business এ কতটা মূল্যবান — quantify করো।
৪. Cost আর latency এর সাথে tradeoff curve আঁকো।
৫. সবচেয়ে ভালো ‘Pareto frontier’ select করো।

Tradeoff Tools

Cascading / Two-tower — cheap → expensive model chain।
Early Exit Network — সহজ sample আগে বের।
Adaptive computation — confidence-based depth।
Distillation — accuracy কাছাকাছি, latency ছোট।
Quantization — minor accuracy drop, big speed up।
Caching — repeat query free response।
Approximate ANN (HNSW, ScaNN) — exact-এর কাছাকাছি অনেক দ্রুত।

Example — Search Ranking

two-stage

Stage 1 (Retrieval): BM25 + ANN
  → millions → 1,000 candidates
  → ~10 ms, ~95% recall

Stage 2 (Ranking): Light GBM
  → 1,000 → 100
  → ~20 ms, AUC 0.82

Stage 3 (Re-rank): BERT cross-encoder
  → 100 → 10
  → ~40 ms, AUC 0.91

Total p95: ~80ms, final quality near full BERT (~0.92)

LLM-specific Tradeoffs

Model size — 3B vs 70B vs GPT-4।
Quantization — INT4 ≈ 90% quality, ১/৪ memory।
Speculative decoding — quality same, ২-৩x দ্রুত।
Context window — বড় context = দাম + latency বেশি।
Routing — সহজ query → ছোট model, কঠিন query → বড় model।
Caching — exact + semantic cache।

Code — Model Router

router.py

def route(query: str) -> str:
    score = complexity_classifier.predict([query])[0]  # 0-1
    if score < 0.3:
        return "gpt-4o-mini"      # cheap & fast
    elif score < 0.7:
        return "llama-3-70b"      # mid
    else:
        return "gpt-4o"           # premium

def answer(query: str):
    cache_hit = semantic_cache.get(query, threshold=0.95)
    if cache_hit: return cache_hit
    model = route(query)
    out = call_llm(model, query)
    semantic_cache.set(query, out)
    return out

Mental Models

‘Diminishing returns’ — শেষ ১% accuracy এর দাম প্রায়শই প্রথম ৫০% এর সমান।
‘Latency tax’ — ১০০ms slower = কয়েক % conversion drop (Amazon study)।
‘Cost per useful request’ — হিসেব করো accuracy-weighted।
‘Right-sizing’ — সবচেয়ে বড় model মানেই সেরা নয়।

Summary

এক নজরে

Tradeoff = Business goal → SLO → Pareto frontier। Cascade, distill, quantize, route, cache — toolkit। শেষ কথা: সেরা model নয়, সেরা system জিতে।