পর্ব ১৯ · মেশিন লার্নিং-এ ক্যালকুলাস
মেশিন লার্নিং-এ গ্রেডিয়েন্ট ডিসেন্ট
Batch, SGD, Mini-batch ও আধুনিক optimizer
শেখার লক্ষ্য
- SGD-র ভ্যারিয়েন্ট বোঝা
- Momentum ও adaptive learning rate
- Convergence ও noise-এর ভূমিকা
Batch, Stochastic, Mini-batch
Batch GD: পুরো dataset দিয়ে এক step — accurate কিন্তু ধীর।
SGD: এক sample → noisy কিন্তু দ্রুত; noise saddle থেকে পালাতে সাহায্য করে।
Mini-batch (32–512): GPU-friendly, balance।
Momentum
অতীত গ্রেডিয়েন্টের exponential average — ravine-এ oscillation কমে।
Nesterov: lookahead — মাঝে মাঝে দ্রুত converge করে।
Adaptive Methods
- AdaGrad: প্রতি parameter-এ Σg² জমিয়ে rate কমায়।
- RMSprop: exponential moving average — AdaGrad-এর শূন্যে যাওয়া rate সমস্যা সমাধান।
- Adam: momentum + RMSprop, bias-correction সহ — default optimizer।
- AdamW: weight decay-কে gradient থেকে আলাদা করে — Transformer ট্রেনিংয়ে standard।
Learning Rate Schedule
Warmup → cosine decay আধুনিক LLM ট্রেনিংয়ে স্ট্যান্ডার্ড।
One-cycle, step decay, ReduceLROnPlateau — বিভিন্ন task-এ ব্যবহৃত।