পর্ব ১৯ · মেশিন লার্নিং-এ ক্যালকুলাস

মেশিন লার্নিং-এ গ্রেডিয়েন্ট ডিসেন্ট

Batch, SGD, Mini-batch ও আধুনিক optimizer

শেখার লক্ষ্য

  • SGD-র ভ্যারিয়েন্ট বোঝা
  • Momentum ও adaptive learning rate
  • Convergence ও noise-এর ভূমিকা

Batch, Stochastic, Mini-batch

Batch GD: পুরো dataset দিয়ে এক step — accurate কিন্তু ধীর।

SGD: এক sample → noisy কিন্তু দ্রুত; noise saddle থেকে পালাতে সাহায্য করে।

Mini-batch (32–512): GPU-friendly, balance।

Momentum

v_{t+1} = \beta v_t + \nabla L(\theta_t),\quad \theta_{t+1} = \theta_t - \alpha v_{t+1}

অতীত গ্রেডিয়েন্টের exponential average — ravine-এ oscillation কমে।

Nesterov: lookahead — মাঝে মাঝে দ্রুত converge করে।

Adaptive Methods

  • AdaGrad: প্রতি parameter-এ Σg² জমিয়ে rate কমায়।
  • RMSprop: exponential moving average — AdaGrad-এর শূন্যে যাওয়া rate সমস্যা সমাধান।
  • Adam: momentum + RMSprop, bias-correction সহ — default optimizer।
  • AdamW: weight decay-কে gradient থেকে আলাদা করে — Transformer ট্রেনিংয়ে standard।

Learning Rate Schedule

Warmup → cosine decay আধুনিক LLM ট্রেনিংয়ে স্ট্যান্ডার্ড।

One-cycle, step decay, ReduceLROnPlateau — বিভিন্ন task-এ ব্যবহৃত।

সারসংক্ষেপ