পর্ব ২০ · ডিপ লার্নিং-এ ক্যালকুলাস
নিউরাল নেটওয়ার্ক
Universal approximator হিসেবে গাণিতিক গঠন
শেখার লক্ষ্য
- Neuron, layer, activation
- Universal Approximation Theorem
- Depth vs width
একটি Neuron
Linear combination + non-linear activation — এটিই basic unit।
Activation Functions
- Sigmoid: σ(x) = 1/(1+e^{−x}); derivative σ(1−σ)।
- Tanh: zero-centered, কিন্তু saturating।
- ReLU: max(0, x) — vanishing gradient কমায়, কিন্তু ‘dying ReLU’।
- GELU, Swish: smooth ReLU-variant — Transformer-এ ব্যবহৃত।
Universal Approximation Theorem
একটি hidden layer সহ feedforward network (যথেষ্ট neuron হলে) যেকোনো continuous ফাংশন compact set-এ যেকোনো নির্ভুলতায় approximate করতে পারে।
Depth vs Width
Depth → হায়ারার্কিক্যাল feature; প্রতিটি লেয়ার পূর্বের উপর গড়ে।
একই accuracy পেতে deep network-এ exponentially কম parameter লাগে।
এআই-সংযোগ
CNN: স্থানীয় filter + shared weights — image-এর spatial structure।
RNN/LSTM: ক্রম + memory।
Transformer: attention দিয়ে global dependency।