93. 딥러닝 기초 이론 (5)딥러닝 학습 방법

LEE_BOMB 2021. 12. 30. 21:20

2021. 12. 30. 21:20

손실 함수(Loss function)

실제값과 예측값의 차이를 수치화해주는 함수
오차가 클 수록 손실 함수의 값은 크고 오차가 작을 수록 손실 함수의 값은 작아짐
두 개의 매개변수인 가중치 와 편향 의 값을 찾는 것이 딥 러닝의 학습 과정이므로 손실 함수의 선정은 매우 중요

1) 평균 제곱 오차 (Mean Squared Error, MSE)
연속형 변수를 예측할 때 사용

model.compile(optimizer='adam', loss='mse', metrics=['mse'])
model.compile(optimizer='adam', loss=tf.keras.losses.MeanSquaredError(), metrics=['mse'])

2) 이진 크로스 엔트로피(Binary Cross-Entropy)
= 이항 교차 엔트로피
로지스틱 회귀에서 사용했던 손실 함수

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['acc'])
model.compile(loss=tf.keras.losses.BinaryCrossentropy(), optimizer='adam', metrics=['acc'])

3) 카테고리칼 크로스 엔트로피(Categorical Cross-Entropy)
= 범주형 교차 엔트로피
소프트맥스 회귀에서 사용했던 손실 함수

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])
model.compile(loss=tf.keras.losses.CategoricalCrossentropy(), optimizer='adam', metrics=['acc'])

4) 그 외 다양한 손실 함수들
https://www.tensorflow.org/api_docs/python/tf/keras/losses

배치 크기(Batch Size)에 따른 경사 하강법

배치 : 가중치 등의 매개 변수의 값을 조정하기 위해 사용하는 데이터의 양
체 데이터를 가지고 매개 변수의 값을 조정할 수도 있고, 정해준 양의 데이터만 가지고도 매개 변수의 값을 조정할 수 있습니다.

(좌)배치 경사 하강법 (우)배치 크기 1인 확률적 경사 하강법이 최적해를 찾아가는 과정

1) 배치 경사 하강법(Batch Gradient Descent)
가장 기본적인 경사 하강법
오차(loss)를 구할 때 전체 데이터를 고려
전체 데이터에 대한 한 번의 훈련 횟수를 1 에포크
한 번의 에포크에 모든 매개변수 업데이트를 단 한 번 수행
한 번의 매개 변수 업데이트에 시간이 오래 걸리며, 메모리를 크게 요구한다는 단점

model.fit(X_train, y_train, batch_size=len(X_train))

2) 배치 크기가 1인 확률적 경사 하강법(Stochastic Gradient Descent, SGD)
매개변수 값을 조정 시 전체 데이터가 아니라 랜덤으로 선택한 하나의 데이터에 대해서만 계산하는 방법
더 적은 데이터를 사용하므로 더 빠르게 계산
매개변수의 변경폭이 불안정하고, 때로는 배치 경사 하강법보다 정확도가 낮을 수도 있지만 하나의 데이터에 대해서만 메모리에 저장하면 되므로 자원이 적은 컴퓨터에서도 쉽게 사용가능

model.fit(X_train, y_train, batch_size=1)

3) 미니 배치 경사 하강법(Mini-Batch Gradient Descent)
전체 데이터도, 1개의 데이터도 아닐 때, 배치 크기를 지정하여 해당 데이터 개수만큼에 대해서 계산하여 매개 변수의 값을 조정하는 경사 하강법
전체 데이터를 계산하는 것보다 빠르며, SGD보다 안정적

model.fit(X_train, y_train, batch_size=128)

배치 크기는 일반적으로 2의 n제곱에 해당하는 숫자로 선택하는 것이 보편적 (배치 크기를 별도로 지정해주지 않을 경우에 기본값은 2의 5제곱에 해당하는 숫자인 32로 설정)

옵티마이저(Optimizer)

1) 모멘텀(Momentum)
경사 하강법에서 계산된 접선의 기울기에 한 시점 전의 접선의 기울기값을 일정한 비율만큼 반영

로컬 미니멈에 도달 시, 때 글로벌 미니멈으로 잘못 인식하여 탈출하지 못하였을 상황에서 모멘텀으로 값을 조절해 현재 로컬 미니멈에서 탈출하고, 글로벌 미니멈 또는 더 낮은 로컬 미니멈으로 갈 수 있음

- 글로벌 미니멈(Global Minimum) : 전체 함수에 걸친 최소값
- 로컬 미니멈(Local Minimum) : 글로벌 미니멈이 아닌 특정 구역에서의 최소값

tf.keras.optimizers.SGD(lr=0.01, momentum=0.9)

2) 아다그라드(Adagrad)
각 매개변수에 서로 다른 학습률을 적용 (모든 매개변수에 동일한 학습률을 적용하는 것은 비효율적)
변화가 많은 매개변수는 학습률이 작게 설정되고 변화가 적은 매개변수는 학습률을 높게 설정

tf.keras.optimizers.Adagrad(lr=0.01, epsilon=1e-6)

3) 알엠에스프롭(RMSprop)
학습을 계속 진행한 경우 나중에 학습률이 지나치게 떨어진다는 단점이 있는데, 이를 다른 수식으로 대체하여 단점 개선

tf.keras.optimizers.RMSprop(lr=0.001, rho=0.9, epsilon=1e-06)

4) 아담(Adam)
알엠에스프롭과 모멘텀 두 가지를 합친 듯한 방법

방향과 학습률 두 가지를 모두 잡기 위한 방법

tf.keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)

각 옵티마이저 인스턴스는 compile의 optimizer에서 호출

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])
#optimizer='sgd', optimizer='rmsprop'

* keras의 옵티마이저 사용법 : https://www.tensorflow.org/api_docs/python/tf/keras/optimizers

에포크, 배치 크기, 이터레이션

1) 에포크(Epoch)
인공 신경망에서 전체 데이터에 대해서 순전파와 역전파가 끝난 상태
전체 데이터를 하나의 문제지에 비유한다면 문제지의 모든 문제를 끝까지 다 풀고, 정답지로 채점을 하여 문제지에 대한 공부를 한 번 끝낸 상태

에포크 횟수가 지나치거나 너무 적으면 과적합과 과소적합이 발생할 수 있다
ex) 에포크 = 50일 때 전체 데이터 단위로는 총 50번 학습 (문제지를 50번 푼 셈)

2) 배치 크기(Batch size)
몇 개의 데이터 단위로 매개변수를 업데이트 하는지를 의미
문제지에서 몇 개씩 문제를 풀고나서 정답지를 확인하느냐의 문제
기계는 실제값과 예측값으로부터 오차를 계산하고, 옵티마이저가 매개변수를 업데이트
업데이트가 시작되는 시점이 정답지/실제값을 확인하는 시점

! 주의
배치 크기와 배치의 수는 다른 개념
ex) 전체 데이터가 2,000일때 배치 크기를 200으로 설정하면 배치의 수는 10
(에포크에서 배치 크기를 나눠준 값(2,000/200). 이 때 배치의 수 = 이터레이션)

3) 이터레이션(Iteration) =스텝(Step)
한 번의 에포크를 끝내기 위해서 필요한 배치의 수 또는 한 번의 에포크 내에서 이루어지는 매개변수의 업데이트 횟수
전체 데이터가 2,000일 때 배치 크기를 200으로 한다면 이터레이션의 수는 총 10 = 한 번의 에포크 당 매개변수 업데이트가 10번 이루어짐
배치 크기가 1인 확률적 경사 하강법은 모든 이터레이션마다 하나의 데이터를 선택하여 경사 하강법 수행

참고 https://wikidocs.net/36033

https://www.nathanieldake.com/Deep_Learning/01-Neural_Networks-03-Backpropagation-Calculations.html
https://twinw.tistory.com/247

'개인공부 > Tensorflow' 카테고리의 다른 글

94. 딥러닝 기초 이론 (6)과적합 해결 (0)	2021.12.31
92. Tensorflow Selenium Crawling 혼자해보기 Google PlayStore 사용자 리뷰 가져오기 (0)	2021.12.29
91. 딥러닝 기초 이론 (4)퍼셉트론, 신경망 (0)	2021.12.27
90. 딥러닝 기초 이론 (3)활성화함수 (0)	2021.12.25
89. 딥러닝 기초 이론 (2)회귀와 분류 (0)	2021.12.24

💣

93. 딥러닝 기초 이론 (5)딥러닝 학습 방법

'개인공부 > Tensorflow' 카테고리의 다른 글

+ Recent posts

티스토리툴바