পর্ব ২১ · LLM-এর ক্যালকুলাস
ট্রেনিং ডায়নামিকস
Scaling law, loss curve ও instability
শেখার লক্ষ্য
- Scaling law-এর গণিত
- Loss spike ও remedy
- Chinchilla optimum
Scaling Laws
Kaplan / Chinchilla: L(N, D) ≈ E + A/Nᵅ + B/Dᵝ; N = parameter, D = token।
Chinchilla optimum: N ও D প্রায় সমান হারে বাড়ানো উচিত (≈ ২০ token / parameter)।
Loss Curve
Log-log plot-এ প্রায় linear — power-law decay।
Emergent ability: কিছু capability হঠাৎ একটি scale-এ আবির্ভূত হয়।
Instability ও Loss Spike
- কারণ: outlier activation, attention logits বিস্ফোরণ, fp16 overflow।
- Remedy: gradient clipping (‖g‖ ≤ τ), QK-norm, z-loss, embedding scaling।
- Restart from earlier checkpoint with smaller LR — production practice।
Hyperparameter Transfer
μP (Maximal Update Parametrization): ছোট model-এ tune করা hyperparameter বড় model-এ কাজ করে।
ট্রেনিং খরচ অনেক কমায়।
এআই-সংযোগ
GPT, LLaMA, Chinchilla — সবগুলোই scaling law-এর উপর ভিত্তি করে compute allocate করেছে।