뉴럴 네트워크 - MLP(이론)

뉴럴 네트워크 - MLP(이론)


Linear Neural Networks

📌 먼저 가장 간단한 예제로 선형모델을 보자

image.png

이때 가장 기본적으로 Loss function은 MSE로 구한다.

image.png

$W$와 $b$의 편미분값을 구해서 그 값을 빼주면서 새로운 $W,b$를 update한다.

image.png

여기서 말하는 Stepsize는 나중에 learning rate을 의미한다.

우리는 여기서 다중차원에 대한 input과 output을 다뤄야한다. 이때 다음과 같은 행렬로 표현해서 계산을 할 수 있다.

image.png


🤔 이 스택을 더 많이 쌓으면?

✅ 만약 스택을 다음과 같이 쌓게되면 어떻게 될까?

image.png

이렇게만 쌓게 되면 결국 하나의 행렬 곱으로 표현이 가능하여 1단짜리 Network와 같다.

💡 이래서 우리가 필요한건 중간에 Nonlinear transform이 필요하다.

image.png



1️⃣ Activation functions

Nonlinear transform은 Activation functions이 있다.

image.png



Multi-Layer Perceptron

우리는 이러한 구조를 multi-layer perceptrons(MLP)라고 부른다. image.png

물론 더 깊게도 만들 수 있다. image.png


1️⃣ loss functions

image.png

위 예시 말고도 더 다양한 loss functions이 있다.

'AI > 이론' 카테고리의 다른 글

CNN - 1x1 Convolution  (0) 2021.02.03
CNN - Convolution  (0) 2021.02.03
CNN Preview  (0) 2021.02.02
Optimization  (0) 2021.02.02
PyTorch basic  (0) 2021.02.01
베이즈 통계학  (0) 2021.02.01
통계학  (0) 2021.01.29
seaborn  (0) 2021.01.29

+ Recent posts