পর্ব ১৮ · অপ্টিমাইজেশন গণিত

গ্রেডিয়েন্ট ডিসেন্ট

ঢালু পাহাড়ে নামার অ্যালগরিদম

শেখার লক্ষ্য

GD অ্যালগরিদম ও আপডেট সূত্র
Learning rate-এর ভূমিকা
Variant: SGD, momentum, Adam

মূল অ্যালগরিদম

ফাংশন f(θ) minimize করতে:

\theta_{t+1} = \theta_t - \alpha \nabla f(\theta_t)

α = learning rate (পদক্ষেপের আকার)। −∇f = সর্বাধিক হ্রাসের দিক।

Learning Rate-এর প্রভাব

α খুব ছোট: ধীর অভিসারিতা।
α খুব বড়: oscillation বা divergence।
Optimal α: Lipschitz constant L-এর উপর নির্ভর; convex case-এ α ≤ 1/L নিরাপদ।

অভিসারিতা হার

Convex, L-smooth: f(θₜ) − f* = O(1/t)।

Strongly convex: O((1−μ/L)ᵗ) — exponential (geometric)।

Non-convex: শুধু stationary point-এ অভিসারিতার গ্যারান্টি।

Variant

SGD (Stochastic): প্রতি ধাপে একটি mini-batch দিয়ে gradient — দ্রুত, noisy।
Momentum: vₜ = βvₜ₋₁ + ∇f; θ ← θ − αv — অতীত দিক মনে রাখে।
Nesterov: look-ahead gradient।
Adam: per-parameter adaptive learning rate + momentum + RMS — ডিফল্ট optimizer।

এআই-সংযোগ

প্রায় সব deep learning model SGD/Adam দিয়ে প্রশিক্ষিত। Learning rate schedule (warmup, cosine decay), gradient clipping, weight decay — সবই GD-এর সম্প্রসারণ।

সারসংক্ষেপ

θ ← θ − α∇f: সরল কিন্তু শক্তিশালী।
α সংবেদনশীল — tuning জরুরি।
SGD, momentum, Adam — বাস্তবে সবচেয়ে ব্যবহৃত।