2. 가중치 규제 추가

간단한 모델이 복잡한 모델보다 과대적합이 덜 된다. 그러므로 과대적합을 완화하기 위해 모델의 복잡도에 제한을 두어 가중치가 작은 값을 가지도록 규제한다. 이로 인해 가중치 값의 분포가 더 균일하게 된다. 이를 **가중치 규제(Weight regularization)**라고 한다.
일반적으로 작은 딥러닝 모델에서 사용된다. 대규모 딥러닝 모델에서는 파라미터가 너무 많기 때문에 가중치 값을 제약하는 것이 일반화에 큰 영향을 미치지 않는다.
가중치 규제는 모델의 손실 함수에 큰 가중치에 연관된 비용을 추가한다. 두가지 형태의 비용이 있다.

L1 규제(= Lasso Regression) : 가중치의 절대값에 비례하는 비용이 추가 (가중치의 L1 노름(norm))
L2 규제(= Ridge Regression) : 가중치의 제곱에 비례하는 비용이 추가 (가중치의 L2 노름(norm))

Untitled

Untitled

※ L2 노름은 가중치의 파라미터를 모두 제곱하여 더한 후 이 값의 제곱근을 구한 것이므로, L2 규제에서 추가되는 비용은 정확히는 L2 노름의 제곱이다.

※ L2 규제는 신경망에서 **가중치 감쇠(weight decay)**라고도 부른다.

원본 모델 불러오기

from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
import numpy as np
from keras import models
from keras import layers

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results
train_data = vectorize_sequences(train_data)

model = models.Sequential([
    layers.Dense(16, activation='relu'),
    layers.Dense(16, activation='relu'),
    layers.Dense(1, activation='sigmoid')])

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

history_original = model.fit(train_data, train_labels,
                             epochs=20, batch_size=512, validation_split=0.4)