পর্ব ১৮ · অপ্টিমাইজেশন গণিত
গ্রেডিয়েন্ট ডিসেন্ট
ঢালু পাহাড়ে নামার অ্যালগরিদম
শেখার লক্ষ্য
- GD অ্যালগরিদম ও আপডেট সূত্র
- Learning rate-এর ভূমিকা
- Variant: SGD, momentum, Adam
মূল অ্যালগরিদম
ফাংশন f(θ) minimize করতে:
α = learning rate (পদক্ষেপের আকার)। −∇f = সর্বাধিক হ্রাসের দিক।
Learning Rate-এর প্রভাব
- α খুব ছোট: ধীর অভিসারিতা।
- α খুব বড়: oscillation বা divergence।
- Optimal α: Lipschitz constant L-এর উপর নির্ভর; convex case-এ α ≤ 1/L নিরাপদ।
অভিসারিতা হার
Convex, L-smooth: f(θₜ) − f* = O(1/t)।
Strongly convex: O((1−μ/L)ᵗ) — exponential (geometric)।
Non-convex: শুধু stationary point-এ অভিসারিতার গ্যারান্টি।
Variant
- SGD (Stochastic): প্রতি ধাপে একটি mini-batch দিয়ে gradient — দ্রুত, noisy।
- Momentum: vₜ = βvₜ₋₁ + ∇f; θ ← θ − αv — অতীত দিক মনে রাখে।
- Nesterov: look-ahead gradient।
- Adam: per-parameter adaptive learning rate + momentum + RMS — ডিফল্ট optimizer।
এআই-সংযোগ
প্রায় সব deep learning model SGD/Adam দিয়ে প্রশিক্ষিত। Learning rate schedule (warmup, cosine decay), gradient clipping, weight decay — সবই GD-এর সম্প্রসারণ।
সারসংক্ষেপ
- θ ← θ − α∇f: সরল কিন্তু শক্তিশালী।
- α সংবেদনশীল — tuning জরুরি।
- SGD, momentum, Adam — বাস্তবে সবচেয়ে ব্যবহৃত।