ডিপ লার্নিং অপ্টিমাইজেশন

Regularization, normalization ও loss landscape

~৩ মিনিট

শেখার লক্ষ্য

  • Regularization কৌশল
  • Batch/Layer normalization
  • Loss landscape ও generalization

Regularization

L2 (weight decay): L + λ‖θ‖²; বড় weight শাস্তি পায়।

L1: sparsity আনে।

Dropout: ট্রেনিংয়ে এলোমেলোভাবে neuron বন্ধ — ensemble-এর approximation।

Early stopping: validation loss বাড়লে থামা।

Normalization

  • BatchNorm: mini-batch-এ mean/var দিয়ে normalize — CNN-এ কার্যকর।
  • LayerNorm: feature dimension বরাবর — Transformer-এ standard।
  • RMSNorm: শুধু variance — দ্রুত, LLaMA-তে ব্যবহৃত।

প্রভাব: gradient flow মসৃণ, large learning rate-এ stable।

Loss Landscape

Deep nets-এর loss surface উচ্চ-মাত্রিক, non-convex, প্রচুর saddle point।

তবে অধিকাংশ local minimum প্রায় সমান-quality — তাই SGD-র জন্য ‘ভালো’ minimum খুঁজে পাওয়া সহজ।

এআই-সংযোগ

Mixed precision (fp16/bf16): কম মেমরি, দ্রুত — gradient scaling লাগে।

Gradient checkpointing: মেমরি বাঁচাতে activation পুনঃহিসাব।

ZeRO, FSDP: large model-এর parameter/gradient shard করা।

কীবোর্ড: আগের · পরের · / খুঁজুন · g শব্দকোষ