94. 딥러닝 기초 이론 (6)과적합 해결

LEE_BOMB 2021. 12. 31. 23:36

2021. 12. 31. 23:36

과적합(Overfitting)?

모델이 학습 데이터를 불필요할정도로 과하게 암기하여 훈련 데이터에 포함된 노이즈까지 학습한 상태

훈련 데이터에 대한 정확도는 높아도, 새로운 데이터(검증 데이터나 테스트 데이터)에 대해서는 제대로 동작하지 않음

1. 데이터의 양을 늘리기

데이터의 양을 늘릴 수록 모델은 데이터의 일반적인 패턴을 학습하여 과적합을 방지

데이터 증식 또는 증강(Data Augmentation) : 데이터의 양이 적을 경우 의도적으로 기존의 데이터를 조금씩 변형하고 추가하여 데이터의 양을 늘림

- 이미지 데이터 : 이미지를 돌리거나 노이즈를 추가하고, 일부분을 수정

- 텍스트 데이터 : 번역 후 재번역을 통해 새로운 데이터를 만들어냅 (=역번역(Back Translation))

2. 모델의 복잡도 줄이기

인공 신경망의 복잡도는 은닉층(hidden layer)의 수나 매개변수의 수 등으로 결정

* 수용력(capacity) : 모델 내 매개변수들의 수

3. 가중치 규제(Regularization) 적용하기

* 정규화(Normalization) : 배치 정규화, 층 정규화

4. 드롭아웃(Dropout)

학습 과정에서 신경망의 일부를 사용하지 않는 방법

신경망 학습 시에만 사용하고, 예측 시에는 사용하지 않는 것이 일반적

ex) 드롭아웃의 비율을 0.5로 한다면 학습 과정마다 랜덤으로 절반의 뉴런을 사용하지 않고, 절반의 뉴런만을 사용

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dropout, Dense

max_words = 10000
num_classes = 46

model = Sequential()
model.add(Dense(256, input_shape=(max_words,), activation='relu'))
model.add(Dropout(0.5)) # 드롭아웃 추가. 비율은 50%
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5)) # 드롭아웃 추가. 비율은 50%
model.add(Dense(num_classes, activation='softmax'))

기울기 소실(Gradient Vanishing), 폭주(Exploding)

기울기 소실

역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작아지는 현상

입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않으면 결국 최적의 모델을 찾을 수 없게 됨

폭주

기울기 소실의 반대

기울기가 점차 커지다가 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하는 현상

해결 방법

1. ReLU와 ReLU의 변형들

은닉층의 활성화 함수로 시그모이드나 하이퍼볼릭탄젠트 대신, ReLU나 ReLU의 변형 함수와 같은 Leaky ReLU를 사용

은닉층에서는 시그모이드 함수 사용X
Leaky ReLU를 사용하면 모든 입력값에 대해서 기울기가 0에 수렴하지 않아 죽은 ReLU 문제를 해결
은닉층에서는 ReLU나 Leaky ReLU와 같은 ReLU 함수의 변형들을 사용

2. 그래디언트 클리핑(Gradient Clipping)

기울기 값을 자르는 것 (=임계치만큼 크기를 감소)

RNN에서 유용 (RNN은 역전파 과정에서 시점을 역행하면서 기울기를 구하는데, 이때 기울기가 너무 커질 수 있기 때문)

from tensorflow.keras import optimizers
Adam = optimizers.Adam(lr=0.0001, clipnorm=1.)

3. 가중치 초기화(Weight initialization)

가중치 초기화를 적절하게 함으로써 기울기 소실 문제과 같은 문제를 완화

1) 세이비어 초기화(Xavier Initialization)

ReLU와 함께 사용할 경우에는 성능이 좋지 않음

2) He 초기화(He initialization)

ReLU 함수 또는 ReLU의 변형 함수들을 활성화 함수로 사용할 경우 사용하는 초기화 방법

ReLU + He 초기화 방법이 좀 더 보편적

4. 배치 정규화(Batch Normalization)

인공 신경망의 각 층에 들어가는 입력을 평균과 분산으로 정규화

1) 내부 공변량 변화(Internal Covariate Shift)

학습 과정에서 층 별로 입력 데이터 분포가 달라지는 현상

2) 배치 정규화(Batch Normalization)

한 번에 들어오는 배치 단위로 정규화

3) 배치 정규화의 한계

- 미니 배치 크기에 의존적

- RNN에 적용하기 어려움

5. 층 정규화(Layer Normalization)

배치 크기에도 의존적이지 않으며, RNN에도 적용하는 것이 수월

참고 https://wikidocs.net/61374

'개인공부 > Tensorflow' 카테고리의 다른 글

93. 딥러닝 기초 이론 (5)딥러닝 학습 방법 (0)	2021.12.30
92. Tensorflow Selenium Crawling 혼자해보기 Google PlayStore 사용자 리뷰 가져오기 (0)	2021.12.29
91. 딥러닝 기초 이론 (4)퍼셉트론, 신경망 (0)	2021.12.27
90. 딥러닝 기초 이론 (3)활성화함수 (0)	2021.12.25
89. 딥러닝 기초 이론 (2)회귀와 분류 (0)	2021.12.24

💣

94. 딥러닝 기초 이론 (6)과적합 해결

'개인공부 > Tensorflow' 카테고리의 다른 글

+ Recent posts

티스토리툴바