গ্রেডিয়েন্ট ফ্লো

Continuous-time view ও NTK

~৩ মিনিট

শেখার লক্ষ্য

  • Gradient descent → ODE
  • Neural Tangent Kernel
  • Implicit bias

Continuous-time Limit

Learning rate α → 0 হলে SGD হয়ে যায় ODE:

এই view-তে momentum হয় second-order ODE; analysis সহজ হয়।

Neural Tangent Kernel (NTK)

Infinite-width limit-এ neural network ট্রেনিং হয় kernel regression-এর মতো:

ট্রেনিংকালে parameter খুব সামান্য সরে — ‘lazy regime’।

Implicit Bias

Gradient descent overparameterized model-এ অনেক zero-loss solution-এর মধ্যে min-norm-টি বেছে নেয়।

এই ‘implicit regularization’ ব্যাখ্যা করে কেন বিশাল নেটওয়ার্কও generalize করে।

Feature Learning vs Lazy

NTK lazy regime-এ feature শেখে না — kernel স্থির।

Practical deep learning feature-learning regime-এ — μP, mean-field তত্ত্ব এটা ধরার চেষ্টা করে।

এআই-সংযোগ

Diffusion model = stochastic gradient flow on data density।

Score matching ∇_x log p(x) শেখা — generative modeling-এর মেরুদণ্ড।

কীবোর্ড: আগের · পরের · / খুঁজুন · g শব্দকোষ