পর্ব ১৯ · মেশিন লার্নিং-এ ক্যালকুলাস

লস ফাংশন

MSE, Cross-Entropy ও তাদের ডেরিভেটিভ

শেখার লক্ষ্য

লস ফাংশন L(θ) মডেলের prediction ও সত্য মানের মধ্যে পার্থক্য পরিমাপ করে। ট্রেনিং মানেই L(θ)-কে minimize করা।

L_{\text{MSE}} = \tfrac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2

ডেরিভেটিভ: ∂L/∂ŷᵢ = −2(yᵢ − ŷᵢ)/n — error-এর সমানুপাতিক।

Gaussian noise ধরে নিলে MSE = negative log-likelihood।

MAE = (1/n)Σ|yᵢ − ŷᵢ| — outlier-resistant, কিন্তু 0-তে non-differentiable।

Huber loss: ছোট error-এ quadratic, বড় error-এ linear — দুইয়ের সুবিধা।

Binary: L = −[y log ŷ + (1−y) log(1−ŷ)]।

L_{\text{CE}} = -\sum_{c=1}^{C} y_c \log \hat{y}_c

Softmax + cross-entropy-এর গ্রেডিয়েন্ট সরল: ∂L/∂zᵢ = ŷᵢ − yᵢ — তাই deep nets-এ এটি সর্বজনীন।