훈련성능을 향상시키는 팁

적절한 데이터셋을 준비한다.

충분한 데이터량
레이블 할당 에러를 최소화하기 위해 입력을 시각화하여 이상치를 제거한다.
데이터를 정제하고 누락된 값을 처리한다.
데이터셋이 순차적으로 배열된 데이터일수도 있다. 예를 들면 앞 절반에는 0~4의 숫자만 있고, 뒤 절반에는 5~9의 숫자만 있을 수 있다. 그러므로 훈련세트와 데이터 세트로 나누기 전에 데이터를 무작위로 섞는 것이 일반적이다.
중복된 데이터가 존재하여 훈련 세트와 검증 세트에 동시에 존재하게 되는 경우가 없도록 한다.

최적 적합모델을 만들려면 먼저 과대적합을 시켜야 한다. 과대적합되는 경계를 알아야 한다.

손실 곡선이 계속 역전되지 않고 계속 하강한다면 과대적합되지 않는 것이다.
과대적합이 되지 않는다면 모델의 표현 능력이 부족한 것이므로 용량이 더 큰 모델을 만든다. 즉, 층을 추가하거나 층 크기를 늘이거나 적합한 종류의 층을 사용한다.

파라미터 설정시, 일반적으로 학습률과 배치 크기를 튜닝하는 것으로 충분하다.

경사하강법에서 너무 높은 학습률은 최적적합을 크게 뛰어넘을 수 있고, 너무 낮은 학습률은 훈련을 느리게 만들어 멈추어 있는 것처럼 보일 수 있다.
배치 샘플을 늘이면 잡음이 적은(분산이 낮은) 그레이디언트를 만든다.

규제(regularization) 기법을 사용하여 모델의 검증 점수를 향상시킨다.