মেশিন লার্নিং

শূন্য থেকে এআই ইঞ্জিনিয়ার

শেখা শুরু করুন →

📚 সমস্ত অধ্যায় দেখুন

অধ্যায়/ফেজ 11 · Phase 11 · Research

11.2⏱ ২০ মিনিট পড়া62 / 68

SOTA Models follow করা

SOTA

State-of-the-art track করা।

Hook — দৌড় থামে না

৬ মাস আগের SOTA আজ baseline। Track না করলে পেছনে পড়ে যাবে — কিন্তু hype এর পেছনে দৌড়ালেও কাজ হবে না। দরকার একটা systematic radar।

‘SOTA’ মানে কী

নির্দিষ্ট benchmark এ আগের সবার চেয়ে ভালো score।
একই dataset, একই metric — তখনই comparable।
‘SOTA on cherry-picked subset’ — সাবধান।
Reproducibility + open weight — true SOTA এর সাথে যায়।

Leaderboard Map

by-domain

NLP / LLM
  - Open LLM Leaderboard (HF)
  - LMSYS Chatbot Arena (human pref)
  - MMLU, GSM8K, HumanEval, MT-Bench
Vision
  - Papers with Code (ImageNet, COCO)
  - OpenCompass VLM
Speech
  - LibriSpeech, Common Voice
Multimodal
  - MMMU, MMBench
Code
  - SWE-bench, BigCodeBench
Agents
  - GAIA, WebArena, OSWorld

Daily/Weekly Sources

Hugging Face Daily Papers + Trending models।
Papers with Code — ‘State-of-the-Art’ section।
Newsletter: The Batch, Import AI, Ahead of AI, Latent Space।
Podcast: Latent Space, TWIML, Dwarkesh।
GitHub Trending — `python`, `machine-learning`।
Conference proceedings (NeurIPS/ICML/ICLR/ACL/CVPR)।

নতুন Model এ কী যাচাই

License — commercial use ok?
Weight + code release vs paper-only?
Benchmark + holdout — contamination check।
Cost (per 1M token / per image)।
Latency, context length, multilingual।
Independent reproduction — third-party blog/repo।

Personal Tracking Stack

RSS reader (Feedly) — arxiv, blog, newsletter এক জায়গায়।
Notion DB — model registry: name, size, license, score, link।
Weekly 1-hour ‘scan ritual’ — গত ৭ দিন review।
Monthly ‘deep dive’ — ১টা SOTA reproduce / fine-tune।

Common Traps

Benchmark overfitting — training set leaked।
Cherry-picked demo (Twitter showreel)।
Hidden cost — RLHF, inference, hardware।
‘+0.3% SOTA’ — practical impact zero।
Hype model 2 সপ্তাহে replaced।

Summary

এক নজরে

SOTA follow = সঠিক leaderboard + curated feed + weekly scan + nuanced eval। হাইপে না দৌড়ে, signal-noise filter বানাও।

← আগের অধ্যায়

11.1Research Paper Reading

পরের অধ্যায় →

11.3Experiment Tracking — W&B, MLflow