ডিপ লার্নিং অপ্টিমাইজেশন

Regularization, normalization ও loss landscape

~৩ মিনিট

শেখার লক্ষ্য

L2 (weight decay): L + λ‖θ‖²; বড় weight শাস্তি পায়।

L1: sparsity আনে।

Dropout: ট্রেনিংয়ে এলোমেলোভাবে neuron বন্ধ — ensemble-এর approximation।

Early stopping: validation loss বাড়লে থামা।

প্রভাব: gradient flow মসৃণ, large learning rate-এ stable।

Deep nets-এর loss surface উচ্চ-মাত্রিক, non-convex, প্রচুর saddle point।

তবে অধিকাংশ local minimum প্রায় সমান-quality — তাই SGD-র জন্য ‘ভালো’ minimum খুঁজে পাওয়া সহজ।

Mixed precision (fp16/bf16): কম মেমরি, দ্রুত — gradient scaling লাগে।

Gradient checkpointing: মেমরি বাঁচাতে activation পুনঃহিসাব।

ZeRO, FSDP: large model-এর parameter/gradient shard করা।

কীবোর্ড: ← আগের · → পরের · / খুঁজুন · g শব্দকোষ