📚 সমস্ত অধ্যায় দেখুন
অধ্যায়/ফেজ 11 · Phase 11 · Research
11.2২০ মিনিট পড়া62 / 68

SOTA Models follow করা

SOTA

State-of-the-art track করা।

Hook — দৌড় থামে না

৬ মাস আগের SOTA আজ baseline। Track না করলে পেছনে পড়ে যাবে — কিন্তু hype এর পেছনে দৌড়ালেও কাজ হবে না। দরকার একটা systematic radar।

‘SOTA’ মানে কী

  • নির্দিষ্ট benchmark এ আগের সবার চেয়ে ভালো score।
  • একই dataset, একই metric — তখনই comparable।
  • ‘SOTA on cherry-picked subset’ — সাবধান।
  • Reproducibility + open weight — true SOTA এর সাথে যায়।

Leaderboard Map

by-domain
NLP / LLM
  - Open LLM Leaderboard (HF)
  - LMSYS Chatbot Arena (human pref)
  - MMLU, GSM8K, HumanEval, MT-Bench
Vision
  - Papers with Code (ImageNet, COCO)
  - OpenCompass VLM
Speech
  - LibriSpeech, Common Voice
Multimodal
  - MMMU, MMBench
Code
  - SWE-bench, BigCodeBench
Agents
  - GAIA, WebArena, OSWorld

Daily/Weekly Sources

  • Hugging Face Daily Papers + Trending models।
  • Papers with Code — ‘State-of-the-Art’ section।
  • Newsletter: The Batch, Import AI, Ahead of AI, Latent Space।
  • Podcast: Latent Space, TWIML, Dwarkesh।
  • GitHub Trending — `python`, `machine-learning`।
  • Conference proceedings (NeurIPS/ICML/ICLR/ACL/CVPR)।

নতুন Model এ কী যাচাই

  • License — commercial use ok?
  • Weight + code release vs paper-only?
  • Benchmark + holdout — contamination check।
  • Cost (per 1M token / per image)।
  • Latency, context length, multilingual।
  • Independent reproduction — third-party blog/repo।

Personal Tracking Stack

  • RSS reader (Feedly) — arxiv, blog, newsletter এক জায়গায়।
  • Notion DB — model registry: name, size, license, score, link।
  • Weekly 1-hour ‘scan ritual’ — গত ৭ দিন review।
  • Monthly ‘deep dive’ — ১টা SOTA reproduce / fine-tune।

Common Traps

  • Benchmark overfitting — training set leaked।
  • Cherry-picked demo (Twitter showreel)।
  • Hidden cost — RLHF, inference, hardware।
  • ‘+0.3% SOTA’ — practical impact zero।
  • Hype model 2 সপ্তাহে replaced।

Summary

এক নজরে

SOTA follow = সঠিক leaderboard + curated feed + weekly scan + nuanced eval। হাইপে না দৌড়ে, signal-noise filter বানাও।