গ্রেডিয়েন্ট ফ্লো
Continuous-time view ও NTK
~৩ মিনিট
শেখার লক্ষ্য
- Gradient descent → ODE
- Neural Tangent Kernel
- Implicit bias
Continuous-time Limit
Learning rate α → 0 হলে SGD হয়ে যায় ODE:
এই view-তে momentum হয় second-order ODE; analysis সহজ হয়।
Neural Tangent Kernel (NTK)
Infinite-width limit-এ neural network ট্রেনিং হয় kernel regression-এর মতো:
ট্রেনিংকালে parameter খুব সামান্য সরে — ‘lazy regime’।
Implicit Bias
Gradient descent overparameterized model-এ অনেক zero-loss solution-এর মধ্যে min-norm-টি বেছে নেয়।
এই ‘implicit regularization’ ব্যাখ্যা করে কেন বিশাল নেটওয়ার্কও generalize করে।
Feature Learning vs Lazy
NTK lazy regime-এ feature শেখে না — kernel স্থির।
Practical deep learning feature-learning regime-এ — μP, mean-field তত্ত্ব এটা ধরার চেষ্টা করে।
এআই-সংযোগ
Diffusion model = stochastic gradient flow on data density।
Score matching ∇_x log p(x) শেখা — generative modeling-এর মেরুদণ্ড।
কীবোর্ড: ← আগের · → পরের · / খুঁজুন · g শব্দকোষ