পর্ব ২১ · LLM-এর ক্যালকুলাস

ট্রেনিং ডায়নামিকস

Scaling law, loss curve ও instability

শেখার লক্ষ্য

  • Scaling law-এর গণিত
  • Loss spike ও remedy
  • Chinchilla optimum

Scaling Laws

Kaplan / Chinchilla: L(N, D) ≈ E + A/Nᵅ + B/Dᵝ; N = parameter, D = token।

Chinchilla optimum: N ও D প্রায় সমান হারে বাড়ানো উচিত (≈ ২০ token / parameter)।

Loss Curve

Log-log plot-এ প্রায় linear — power-law decay।

Emergent ability: কিছু capability হঠাৎ একটি scale-এ আবির্ভূত হয়।

Instability ও Loss Spike

  • কারণ: outlier activation, attention logits বিস্ফোরণ, fp16 overflow।
  • Remedy: gradient clipping (‖g‖ ≤ τ), QK-norm, z-loss, embedding scaling।
  • Restart from earlier checkpoint with smaller LR — production practice।

Hyperparameter Transfer

μP (Maximal Update Parametrization): ছোট model-এ tune করা hyperparameter বড় model-এ কাজ করে।

ট্রেনিং খরচ অনেক কমায়।

এআই-সংযোগ

GPT, LLaMA, Chinchilla — সবগুলোই scaling law-এর উপর ভিত্তি করে compute allocate করেছে।