Hook — দৌড় থামে না
৬ মাস আগের SOTA আজ baseline। Track না করলে পেছনে পড়ে যাবে — কিন্তু hype এর পেছনে দৌড়ালেও কাজ হবে না। দরকার একটা systematic radar।
‘SOTA’ মানে কী
- নির্দিষ্ট benchmark এ আগের সবার চেয়ে ভালো score।
- একই dataset, একই metric — তখনই comparable।
- ‘SOTA on cherry-picked subset’ — সাবধান।
- Reproducibility + open weight — true SOTA এর সাথে যায়।
Leaderboard Map
by-domain
NLP / LLM
- Open LLM Leaderboard (HF)
- LMSYS Chatbot Arena (human pref)
- MMLU, GSM8K, HumanEval, MT-Bench
Vision
- Papers with Code (ImageNet, COCO)
- OpenCompass VLM
Speech
- LibriSpeech, Common Voice
Multimodal
- MMMU, MMBench
Code
- SWE-bench, BigCodeBench
Agents
- GAIA, WebArena, OSWorldDaily/Weekly Sources
- Hugging Face Daily Papers + Trending models।
- Papers with Code — ‘State-of-the-Art’ section।
- Newsletter: The Batch, Import AI, Ahead of AI, Latent Space।
- Podcast: Latent Space, TWIML, Dwarkesh।
- GitHub Trending — `python`, `machine-learning`।
- Conference proceedings (NeurIPS/ICML/ICLR/ACL/CVPR)।
নতুন Model এ কী যাচাই
- License — commercial use ok?
- Weight + code release vs paper-only?
- Benchmark + holdout — contamination check।
- Cost (per 1M token / per image)।
- Latency, context length, multilingual।
- Independent reproduction — third-party blog/repo।
Personal Tracking Stack
- RSS reader (Feedly) — arxiv, blog, newsletter এক জায়গায়।
- Notion DB — model registry: name, size, license, score, link।
- Weekly 1-hour ‘scan ritual’ — গত ৭ দিন review।
- Monthly ‘deep dive’ — ১টা SOTA reproduce / fine-tune।
Common Traps
- Benchmark overfitting — training set leaked।
- Cherry-picked demo (Twitter showreel)।
- Hidden cost — RLHF, inference, hardware।
- ‘+0.3% SOTA’ — practical impact zero।
- Hype model 2 সপ্তাহে replaced।
Summary
এক নজরে
SOTA follow = সঠিক leaderboard + curated feed + weekly scan + nuanced eval। হাইপে না দৌড়ে, signal-noise filter বানাও।