적절한 데이터셋을 준비한다.
- 충분한 데이터량
- 레이블 할당 에러를 최소화하기 위해 입력을 시각화하여 이상치를 제거한다.
- 데이터를 정제하고 누락된 값을 처리한다.
- 데이터셋이 순차적으로 배열된 데이터일수도 있다. 예를 들면 앞 절반에는 0~4의 숫자만 있고, 뒤 절반에는 5~9의 숫자만 있을 수 있다. 그러므로 훈련세트와 데이터 세트로 나누기 전에 데이터를 무작위로 섞는 것이 일반적이다.
- 중복된 데이터가 존재하여 훈련 세트와 검증 세트에 동시에 존재하게 되는 경우가 없도록 한다.
최적 적합모델을 만들려면 먼저 과대적합을 시켜야 한다. 과대적합되는 경계를 알아야 한다.
- 손실 곡선이 계속 역전되지 않고 계속 하강한다면 과대적합되지 않는 것이다.
- 과대적합이 되지 않는다면 모델의 표현 능력이 부족한 것이므로 용량이 더 큰 모델을 만든다. 즉, 층을 추가하거나 층 크기를 늘이거나 적합한 종류의 층을 사용한다.
파라미터 설정시, 일반적으로 학습률과 배치 크기를 튜닝하는 것으로 충분하다.
- 경사하강법에서 너무 높은 학습률은 최적적합을 크게 뛰어넘을 수 있고, 너무 낮은 학습률은 훈련을 느리게 만들어 멈추어 있는 것처럼 보일 수 있다.
- 배치 샘플을 늘이면 잡음이 적은(분산이 낮은) 그레이디언트를 만든다.
규제(regularization) 기법을 사용하여 모델의 검증 점수를 향상시킨다.
- Regularization은 다음 노트에 정리….