Hook — সৃষ্টি করতে পারা AI
ChatGPT লেখে, Midjourney আঁকে, Suno গান বানায়, Sora video তৈরি করে। Discriminative AI বলে ‘এটা কী?’, Generative AI বলে ‘নতুন কিছু বানাই’।
Discriminative vs Generative
- Discriminative — P(y|x) — classification, regression।
- Generative — P(x) বা P(x,y) — নতুন sample তৈরি।
Generative Model Families
- Autoregressive — GPT, PixelCNN — token by token।
- VAE — latent space encode/decode।
- GAN — Generator vs Discriminator লড়াই।
- Diffusion — noise থেকে denoise (Stable Diffusion, DALL·E 3)।
- Flow-based — invertible transformation।
Modalities
- Text — GPT-4, Claude, LLaMA, Gemini।
- Image — Stable Diffusion, Midjourney, FLUX।
- Audio — Suno, ElevenLabs, MusicGen।
- Video — Sora, Runway, Veo।
- 3D — DreamFusion, GaussianSplatting।
- Code — Codex, Claude Code, Cursor।
- Multimodal — GPT-4o, Gemini।
Code — Diffusers দিয়ে Image Generation
sd_demo.py
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained(
"runwayml/stable-diffusion-v1-5",
torch_dtype=torch.float16,
).to("cuda")
img = pipe("a cute baby koala drinking coffee, studio lighting",
num_inference_steps=30, guidance_scale=7.5).images[0]
img.save("koala.png")LLM দিয়ে Text Generation
llm_gen.py
from transformers import pipeline
gen = pipeline("text-generation", model="meta-llama/Llama-3.2-1B")
out = gen("Machine learning এর ভবিষ্যৎ", max_new_tokens=80)
print(out[0]["generated_text"])Applications
- Content creation — blog, ad, design।
- Code generation, debugging।
- Synthetic data generation।
- Drug discovery, protein design (AlphaFold)।
- Personalized learning, tutoring।
Ethics & Challenges
দায়িত্ব
Deepfake, misinformation, copyright, bias, hallucination — Generative AI এর shadow side। Responsible use জরুরি।
Phase 6 তে কী আসছে?
- GAN ও Diffusion এর গভীরে।
- LLM fundamentals ও fine-tuning।
- Prompt Engineering।
- RAG System।
Summary
এক নজরে
Generative AI = নতুন কিছু সৃষ্টি। GAN, VAE, Diffusion, Autoregressive — প্রতিটি family এর নিজস্ব শক্তি। আজকের AI বিপ্লবের কেন্দ্র।