숨겨진 레이어에 임의 노이즈를 추가하는 것이 정규화로 간주됩니까? 그렇게하는 것과 드롭 아웃 및 배치 정규화를 추가하는 것의 차이점은 무엇입니까?


대답 1:

예, 숨겨진 레이어에 임의 노이즈를 추가하는 것은 드롭 아웃과 동일한 방식으로 정규화됩니다. 여기서 중요한 직감은 각 레이어의 신경 반응에 노이즈가 발생하면 학습이 가중치보다 잡음이 큰 간극으로 범주를 분리하도록 가중치를 조정해야한다는 것입니다. 따라서 시험 시간에 소음이 없을 때 분류가 더 안정적이어야한다. 이는 최대 여백 분류가 작동하는 방식과 매우 유사하며, 최대 여백 기술이 얼마나 성공적 이었는지 (예 : Support Vector Machines) 알고 있습니다. 그러나 잡음이 신호를 압도하지 않도록주의해야합니다.

드롭 아웃은 모델 평균화를 수행하기 때문에 정규화 방법으로 간주됩니다. 즉, 훈련 중 특정 시점의 모델은 실제로 가중치가 고정되어 있지만 모델의 뉴런 중 하나가 누락 될 수있는 신경망 모델 클래스에 대한 확률 분포입니다. 각 신경망의 전체 확률은 특정 뉴런의 존재 또는 부재의 개별 확률에 의해 결정됩니다. 이는 각 인스턴스의 편향을 평균하여 비용 함수를 부드럽게하기 때문에 정규화입니다.

숨겨진 레이어에 랜덤 노이즈를 추가하는 방식은 동일하지만 확률 분포는 다릅니다. 고정 가중치가 아닌 고정 토폴로지가 있으며 확률 분포는 "진정한"가중치, 즉 하드 드라이브에 저장하는 가중치를 중심으로 한 가우시안 분포에 따라 무작위로 가중치를 선택합니다. 다시 말하지만, 이것은 모델 평균화이며, 잡음 (분산)이 신호를 압도해서는 안된다는 경고와 함께 규칙적인 영향을 미쳐야합니다. 예를 들어, BatchNorm을 처음 적용하는 경우 대략 표준 일반 출력 프로파일 (변이 1의 중심이 0 인 장치)을 갖게되고 변동이 0.1 인 예를 들어 노이즈를 적용 할 수 있습니다. 분산을 사용하여 작동하는 것을 볼 수 있습니다.

편집 : 질문에 BatchNorm이 언급되었으므로 BatchNorm이 실제로 정규화에 사용되지 않는다는 것을 지적하고 싶었습니다. 즉, BatchNorm은 비용을 완화하지 않습니다. 대신, 역 전파 성능을 향상시키기 위해 BatchNorm이 추가되었습니다. 본질적으로, 그것은 다시 스케일링 및 최근 화에 의해 후방 전파 그라디언트가 너무 커지거나 작아지는 것을 방지한다; 기술로서, 비용 표면의 곡률을 모델링하려고 시도하는 2 차 최적화 방법에 더 깊이 연결됩니다. 위에서 언급했듯이 BatchNorm을 사용하면 신경 활동에 임의 노이즈를 추가하려는 경우 상대 스케일링이 올바른지 확인할 수 있습니다.


대답 2:

정규화보다 최적화 트릭이라고 생각합니다.

이 효과는 SGD의 확률 효과와 동일해야합니다.

SGD와 그 영감을받은 Monte Carlo 방법은 가파른 하강 방향을 엄격하게 따르는 대신에 가끔씩 무작위로 발걸음을 poor으로써 빈약 한 지역 미니멀에 빠지지 않도록합니다. 또는 다양한 화신에서 동등한 것을하는 것, 예를 들어 주기적으로 임의의 단계를 취하는 대신 임의의 단계를 임의의 단계에 추가하는 것.

가중치에 약한 임의 노이즈를 추가하면 정확히 동일하게 달성됩니다. [힌트 : 그라디언트 디센트는 모든 반복에서 가중치에 무언가를 추가합니다!]


대답 3:

편집하다:

각 레이어의 입력 데이터에 가우시안 분산 랜덤 노이즈를 추가하면 데이터를 조금만 변경해도 모델이 더욱 강력 해져서 네트워크에서 신호와 노이즈를 더 잘 구분할 수 있습니다. Zeeshan Zia가 말했듯이 이것은 본질적으로 확률 적 그라디언트입니다. 나는 여전히이 정규화를 고려하지 않을 것입니다. 모델이 노이즈와 신호를 분리하는 패턴을 학습하도록 돕는 기술입니다.

드롭 아웃은 각 패스에서 숨겨진 레이어에서 특정 비율의 노드를 무작위로 비활성화합니다. 이를 통해 네트워크는 동일한 패턴을 여러 가지 방법으로 인식하는 방법을 배우게되어 더 나은 모델로 이어지기 때문에 네트워크가 향상됩니다.

배치 정규화는 입력을 레이어로 가져 와서 모두 0과 1 사이에서 정규화되도록하는 곳입니다. 그래디언트를보다 일관되고 매끄럽게 유지하기 때문에 네트워크를 더 잘 학습 할 수 있습니다. 이런 식으로 그라디언트가 너무 커서 최소 점을 뛰어 넘는 것을 피할 수 있습니다.