Understanding the difficulty of training deep feedforward neural networks
간단 정리
2006년 이전에는 심층 다층 신경 네트워크가 성공적으로 훈련되지 않은 것으로 보이는 반면에, 그 이후 여러 알고리즘이 심층 구조와 저층 구조의 우월성을 보여주는 실험 결과와 함께 그것들을 성공적으로 훈련시키는 것으로 나타났다.
이러한 모든 실험 결과는 새로운 초기화 또는 훈련 메커니즘으로 얻어졌다. 여기서 우리의 목표는 무작위 초기화에 따른 표준 구배 강하가 심층 신경망에서 왜 그렇게 나쁜지를 더 잘 이해하여 최근의 상대적 성공을 더 잘 이해하고 미래에 더 나은 알고리즘을 설계하는 데 도움을 주는 것이다. 우리는 먼저 비선형 활성화 함수의 영향을 관찰한다. 우리는 로지스틱 sigmoid 활성화가 그것의 평균값 때문에 무작위 초기화가 있는 깊은 네트워크에 적합하지 않다는 것을 발견했는데, 이것은 특히 상위 숨겨진 계층을 포화로 몰고 갈 수 있다.
놀랍게도, 우리는 포화 단위가 비록 느리지만 스스로 포화상태에서 벗어날 수 있다는 것을 발견하며, 신경망을 훈련할 때 가끔 보이는 고지를 설명한다. 우리는 덜 포만적인 새로운 비선형성이 종종 유익할 수 있다는 것을 발견한다. 마지막으로 각 계층과 연관된 자코비안의 단수값이 1과 멀리 떨어져 있을 때 훈련이 더 어려울 수 있다는 생각으로 계층과 훈련 동안에 활성화와 그라데이션이 어떻게 다른지 연구한다. 이러한 고려사항에 기초하여, 우리는 훨씬 더 빠른 융합을 가져오는 새로운 초기화 계획을 제안한다.
'Stay Hungry Stay Foolish > 논문 정리' 카테고리의 다른 글
[논문 정리] Memory Enhanced Global-Local Aggregation for Video Object Detection (0) | 2020.12.07 |
---|---|
[논문 정리] Object Detection in the Context of Mobile Augmented Reality (2) | 2020.11.09 |
[논문 정리] Mask R-CNN (2) (0) | 2020.09.02 |
[논문 정리] Mask R-CNN (1) (0) | 2020.09.02 |
[논문 정리] Fixup 초기화 방법 : norm없는 잔차 학습 (2) | 2020.09.01 |
댓글