91. 딥러닝 기초 이론 (4)퍼셉트론, 신경망

개인공부/Tensorflow

91. 딥러닝 기초 이론 (4)퍼셉트론, 신경망

LEE_BOMB 2021. 12. 27. 21:56

딥러닝(Deep Learning)이란?

머신러닝의 한 분야

연속된 층(Layer)에서 점진적으로 학습을 하는 것에 강점이 있으며, 기계 학습의 새로운 방식
* 딥(Deep) : '연속된 층으로 학습한다' (층의 숫자 = 모델의 깊이)

퍼셉트론(Perceptron)

초기 형태의 인공 신경망
다수의 입력으로부터 하나의 결과를 내보내는 알고리즘

퍼셉트론은 실제 뇌를 구성하는 신경 세포 뉴런의 동작과 유사 (뉴런은 가지돌기에서 신호를 받아들이고, 이 신호가 일정치 이상의 크기를 가지면 축삭돌기를 통해서 신호를 전달)
신경 세포 뉴런의 입력 신호와 출력 신호가 퍼셉트론에서 각각 입력값과 출력값에 해당

1. 단층 퍼셉트론(Single-Layer Perceptron)

값을 보내는 단계과 값을 받아서 출력하는 두 단계
각 단계를 보통 층(layer), 두 개의 층을 입력층(input layer)과 출력층(output layer)

AND 게이트, NAND 게이트, OR 게이트를 구현할 수 있으나 XOR 게이트는 구현 불가
XOR 게이트 : 입력값 두 개가 서로 다른 값을 갖고 있을때에만 출력값이 1이 되고, 입력값 두 개가 서로 같은 값을 가지면 출력값이 0이 되는 게이트
* 게이트(gate) : 컴퓨터는 두 개의 값 0과 1을 입력해 하나의 값을 출력하는 회로가 모여 만들어지는데, 이 회로가 게이트

2. 다층 퍼셉트론(MultiLayer Perceptron, MLP)

기존의 AND, NAND, OR 게이트를 조합해 XOR 게이트를 생성 가능
단층 퍼셉트론은 입력층과 출력층만 존재하지만, 다층 퍼셉트론은 중간에 은닉층(hidden layer)을 추가
* XOR 문제, 기타 복잡한 문제를 해결하기 위해 다층 퍼셉트론은 중간에 수많은 은닉층을 추가할 수 있음

신경망의 종류

1. 피드 포워드 신경망(FFNN)

다층 퍼셉트론(MLP)과 같이 오직 입력층에서 출력층 방향으로 연산이 전개되는 신경망

2. 인공신경망 (Artificial Neural Network, ANN)

생물학적 Neural Network vs Artificial Neural Network

사람의 신경망 원리와 구조를 모방하여 만든 기계학습 알고리즘

뇌에서 뉴런들이 어떤 신호, 자극 등을 받고, 그 자극이 어떠한 임계값(threshold)을 넘어서면 결과 신호를 전달하는 과정에서 착안 (자극/신호는 Input Data, 임계값은 가중치(weight), 자극에 의해 어떤 행동을 하는 것은 Output데이터)

단층 ANN

hidden = output

- 단층 layer : hidden node 수 = 출력 수

다층 ANN

hidden ≠ output

* Hyper parameter : hidden layer & node

Weight 차원 : 2차원

Weight 행 = 입력 node(이전 layer 출력 수)

Weight 열 = 출력 node(다음 layer 입력 수)

Bias 차원 : 1차원

출력 node(다음 layer 입력)

* layer node 수 : 입력층과 가까울 수록 많게, 출력층과 가까울 수록 적게 지정

ANN의 문제점
1. 학습과정에서 파라미터의 최적값을 찾기 어렵다.
활성함수의 사용은 기울기 값에 의해 weight가 결정되었는데 이런 gradient값이 뒤로 갈수록 점점 작아져 0에 수렴하는 오류 생성, 부분 에러를 최저 에러로 인식해 학습 중단 등

2. Overfitting에 따른 문제. 학습시간이 너무 느리다.
많은 은닉층은 정확도 상승과 연산량 상승 유발. (현재는 그래픽 카드의 발전으로 연산량 감당, 사전훈련으로 오버피팅으로 사전 방지 가능

순전파

인공 신경망에서 입력층에서 출력층 방향으로 연산을 진행하는 과정

입력층에서 출력층 방향으로 예측값의 연산이 진행되는 과정

행렬곱으로 순전파 이해하기

입력의 차원이 3, 출력의 차원이 2 (신경망의 용어로는 입력층의 뉴런이 3개, 출력층의 뉴런이 2개)

화살표 각각은 가중치 w를 의미(3개의 뉴런과 2개의 뉴런 사이에는 총 6개의 화살표가 존재하는데, 이는 '신경망에서 가중치 w의 개수가 6개'임을 의미. 행렬곱 관점에서는 '3차원 벡터에서 2차원 벡터가 되기 위해서 3 × 2 행렬을 곱했다')

병렬 연산

4개의 샘플을 하나의 행렬&nbsp; X 로 정의하고, 인공 신경망의 순전파를 행렬곱으로 표현

인공 신경망의 4개의 샘플을 동시에 처리하고 있지만, 여기서 학습가능한 매개변수의 수는 여전히 8개

배치 연산 : 인공 신경망이 다수의 샘플을 동시에 처리하는 것

역전파(Backpropagation)

딥러닝 프레임워크 필수 라이브러리

출력에서 생긴 오차(error)를 입력 쪽(역방향)으로 전파시켜 순차적으로 편미분을 수행하여 훈련 데이터에 최적화된 weight값을 얻는 알고리즘

인공 신경망의 학습은 오차를 최소화하는 가중치를 찾는 목적으로 순전파와 역전파를 반복하는 것

역전파 단계

1. Hidden vs Output 가중치 수정

은닉층과 출력층 사이 가중치 수정 : output 오차, output, hidden 이용

2. Input vs Hidden 가중치 수정

1) hidden 오차 = hidden 가중치(wo) 전치행렬 * output 오차

* 입력층과 은닉층 사이의 가중치를 수정하기 위해서 은닉층 오차 필요

2) Input vs Hidden 가중치 수정 : hidden 오차와 hidden output, input 이용

Deep Learning 유형

심층 신경망(DNN : Deep Neural Network)

입력층(input layer)과 출력층(output layer) 사이에 여러 개(2개 이상)의 은닉층(hidden layer)

중간층의 다층화로 뉴런 처리와 전달, 산출되는 특징 값이 늘어남 → 정확도 향상

파라미터 수가 너무 많아짐 → 연산 많아짐, 과적합

완전연결 계층(Fully Connected NN)

심층 신뢰 신경망 (DBN : Deep Belief Network)

다중계층으로 이루어진 심층 신경망

Dropout : 과적합 문제 해결을 위한 무작위 네트워크 삭제

제한된 볼츠만 머신(Restricted Boltzmann Machine: RBM) : 가중치 갱신 알고리즘

합성곱 신경망 (Convolution Neural Network, CNN)

이미지 입력 → 어떤 이미지인지 판별하는 Classification모델

기계학습에서 이미지의 정보를 뉴런에 전달할 때, 이미지의 일부 범위로 좁혀서 분석하고 그 범위를 조금씩 잘라내며 분석을 반복하는 방식 (특징을 추출하여 특징의 패턴 파악)

활용 분야 : 정보추출, 문장분류, 얼굴인식

- Convolution Layer : 각 성분의 인접 성분들을 조사해 특징을 파악하고 파악한 특징을 한장으로 도출시키는 과정에서 도출된 장

- Pooling : Convolution 과정을 거친 레이어의 사이즈를 줄여주는 과정. 데이터의 사이즈를 줄이고, 노이즈를 상쇄, 미세한 부분에서 일관적인 특징을 제공

순환신경망 (Recurrent Neural Network, RNN)

반복적이고 순차적인 데이터(Sequential data)학습에 특화된 인공신경망의 한 종류

내부의 순환구조가 들어있는데, 순환구조를 이용하여 과거의 학습을 Weight를 통해 현재 학습에 반영한다

시계열 분석을 가능하게 만들어 준 동적 데이터와 호환되는 딥러닝 모델

현재의 학습과 과거의 학습의 연결을 가능하게 하고 시간에 종속된다는 특징

* 동적 데이터 : 자연어 대화, 동영상, 음성, 시계열의 통계 데이터와 로그 데이터

활용 분야 : 최근 자연어 대화 등의 분야, 음성 웨이브 폼, 텍스트 앞 뒤 성분 파악

딥러닝 레이어 (Fully Connected Layers)

이미지 인식과 컴퓨터 비전 과제를 전문으로 하는 신경망의 일종

인접한 계층의 모든 뉴런과 결합

엄청난 수의 연결과 네트워크 매개변수를 필요로 함

Affine 계층 : layer 간의 모든 노드(뉴런) 완전 연결 계층

Affine 계층 뒤에 활성화 함수 ReLU 계층(or Sigmoid) 연결

마지막 4번째 계층은 Affine 계층과 Softmax 계층에서 확률값으로 최종 출력

점수 : 정규화하지 않은 출력 결과(Affine 계층) -> 비율척도(회귀분석)

확률 : 입력값을 정규화(출력의 합 1)한 출력 결과(Softmax 계층) -> 0~1사이

참고 https://wikidocs.net/150781