পর্ব ২১ · LLM-এর ক্যালকুলাস

ট্রেনিং ডায়নামিকস

Scaling law, loss curve ও instability

শেখার লক্ষ্য

Kaplan / Chinchilla: L(N, D) ≈ E + A/Nᵅ + B/Dᵝ; N = parameter, D = token।

Chinchilla optimum: N ও D প্রায় সমান হারে বাড়ানো উচিত (≈ ২০ token / parameter)।

Log-log plot-এ প্রায় linear — power-law decay।

Emergent ability: কিছু capability হঠাৎ একটি scale-এ আবির্ভূত হয়।

μP (Maximal Update Parametrization): ছোট model-এ tune করা hyperparameter বড় model-এ কাজ করে।

ট্রেনিং খরচ অনেক কমায়।

GPT, LLaMA, Chinchilla — সবগুলোই scaling law-এর উপর ভিত্তি করে compute allocate করেছে।