ডিপ লার্নিং অপ্টিমাইজেশন
Regularization, normalization ও loss landscape
~৩ মিনিট
শেখার লক্ষ্য
- Regularization কৌশল
- Batch/Layer normalization
- Loss landscape ও generalization
Regularization
L2 (weight decay): L + λ‖θ‖²; বড় weight শাস্তি পায়।
L1: sparsity আনে।
Dropout: ট্রেনিংয়ে এলোমেলোভাবে neuron বন্ধ — ensemble-এর approximation।
Early stopping: validation loss বাড়লে থামা।
Normalization
- BatchNorm: mini-batch-এ mean/var দিয়ে normalize — CNN-এ কার্যকর।
- LayerNorm: feature dimension বরাবর — Transformer-এ standard।
- RMSNorm: শুধু variance — দ্রুত, LLaMA-তে ব্যবহৃত।
প্রভাব: gradient flow মসৃণ, large learning rate-এ stable।
Loss Landscape
Deep nets-এর loss surface উচ্চ-মাত্রিক, non-convex, প্রচুর saddle point।
তবে অধিকাংশ local minimum প্রায় সমান-quality — তাই SGD-র জন্য ‘ভালো’ minimum খুঁজে পাওয়া সহজ।
এআই-সংযোগ
Mixed precision (fp16/bf16): কম মেমরি, দ্রুত — gradient scaling লাগে।
Gradient checkpointing: মেমরি বাঁচাতে activation পুনঃহিসাব।
ZeRO, FSDP: large model-এর parameter/gradient shard করা।
কীবোর্ড: ← আগের · → পরের · / খুঁজুন · g শব্দকোষ