গ্রেডিয়েন্ট ফ্লো

Continuous-time view ও NTK

~৩ মিনিট

শেখার লক্ষ্য

Learning rate α → 0 হলে SGD হয়ে যায় ODE:

\frac{d θ}{d t} = - \nabla L (θ)

এই view-তে momentum হয় second-order ODE; analysis সহজ হয়।

Infinite-width limit-এ neural network ট্রেনিং হয় kernel regression-এর মতো:

K (x, x^{'}) = \nabla_{θ} f (x)^{⊤} \nabla_{θ} f (x^{'})

ট্রেনিংকালে parameter খুব সামান্য সরে — ‘lazy regime’।

Gradient descent overparameterized model-এ অনেক zero-loss solution-এর মধ্যে min-norm-টি বেছে নেয়।

এই ‘implicit regularization’ ব্যাখ্যা করে কেন বিশাল নেটওয়ার্কও generalize করে।

NTK lazy regime-এ feature শেখে না — kernel স্থির।

Practical deep learning feature-learning regime-এ — μP, mean-field তত্ত্ব এটা ধরার চেষ্টা করে।

Diffusion model = stochastic gradient flow on data density।

Score matching ∇_x log p(x) শেখা — generative modeling-এর মেরুদণ্ড।

কীবোর্ড: ← আগের · → পরের · / খুঁজুন · g শব্দকোষ