পর্ব ১৯ · মেশিন লার্নিং-এ ক্যালকুলাস

ব্যাকপ্রোপাগেশন

চেইন রুলের অ্যালগরিদমিক রূপ

শেখার লক্ষ্য

Forward ও backward pass
Computational graph
Reverse-mode autodiff

Forward Pass

প্রতিটি লেয়ার: z = Wx + b, a = σ(z)। শেষে loss L হিসাব হয়।

Intermediate value (z, a) cache করে রাখা হয় — backward-এ লাগবে।

Backward Pass — চেইন রুল

প্রতিটি লেয়ারের গ্রেডিয়েন্ট চেইন রুলে পেছন থেকে সামনে ছড়ায়:

\frac{\partial L}{\partial W^{(l)}} = \frac{\partial L}{\partial a^{(l)}} \cdot \frac{\partial a^{(l)}}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial W^{(l)}}

δ⁽ˡ⁾ = (W⁽ˡ⁺¹⁾)ᵀ δ⁽ˡ⁺¹⁾ ⊙ σ′(z⁽ˡ⁾) — এই recursive সূত্রই backprop।

Computational Graph

প্রতিটি operation একটি node; edge দিয়ে dependency। Reverse-mode autodiff গ্রাফকে পেছন থেকে traverse করে গ্রেডিয়েন্ট গণনা করে।

Vanishing ও Exploding Gradient

প্রতিটি লেয়ারে σ′(z) গুণ হলে — sigmoid-এ ≤ 0.25 — বহু লেয়ারে গ্রেডিয়েন্ট প্রায় ০।

Remedy: ReLU, residual connections (ResNet), batch/layer normalization, careful initialization (He, Xavier)।

এআই-সংযোগ

PyTorch/JAX/TensorFlow-এর autograd সরাসরি reverse-mode autodiff।

Backprop through time (BPTT) — RNN-এ একই নীতি, কেবল গ্রাফ সময় বরাবর unfold।