পর্ব ২০ · ডিপ লার্নিং-এ ক্যালকুলাস

নিউরাল নেটওয়ার্ক

Universal approximator হিসেবে গাণিতিক গঠন

শেখার লক্ষ্য

  • Neuron, layer, activation
  • Universal Approximation Theorem
  • Depth vs width

একটি Neuron

a = \sigma(\mathbf{w}^\top \mathbf{x} + b)

Linear combination + non-linear activation — এটিই basic unit।

Activation Functions

  • Sigmoid: σ(x) = 1/(1+e^{−x}); derivative σ(1−σ)।
  • Tanh: zero-centered, কিন্তু saturating।
  • ReLU: max(0, x) — vanishing gradient কমায়, কিন্তু ‘dying ReLU’।
  • GELU, Swish: smooth ReLU-variant — Transformer-এ ব্যবহৃত।

Universal Approximation Theorem

একটি hidden layer সহ feedforward network (যথেষ্ট neuron হলে) যেকোনো continuous ফাংশন compact set-এ যেকোনো নির্ভুলতায় approximate করতে পারে।

Depth vs Width

Depth → হায়ারার্কিক্যাল feature; প্রতিটি লেয়ার পূর্বের উপর গড়ে।

একই accuracy পেতে deep network-এ exponentially কম parameter লাগে।

এআই-সংযোগ

CNN: স্থানীয় filter + shared weights — image-এর spatial structure।

RNN/LSTM: ক্রম + memory।

Transformer: attention দিয়ে global dependency।