09/30 세미나

오늘은 탁동혁 연구원이 인공신경망에서 발생하는 grokking이라는 현상에 대해 설명하는 논문 두 편을 발표하였습니다. 기존의 연구 결과에 따르면 인공신경망에서 훈련을 과도하게 시키면 훈련 데이터 집합에 over-fitting이 발생하여 테스트 데이터 집합에 대해서는 처리 성능이 감소하는 것으로 알려져 있습니다. 하지만 over-fitting이 발생한 상태에서 훈련을 추가적으로 훨씬 더 시켜주면 테스트 데이터 집합에 대한 처리 성능이 오히려 올라갈 수 있음을 실험을 통해 논문의 저자들이 보였습니다. 이를 grokking이라 하며, 현재까지 연구된 바에 따르면 훈련을 계속 반복함에 따라 인공신경망이 훈련 데이터들과 테스트 데이터들이 공통적으로 공유하는 특징들을 학습하여 일반화 능력을 극대회 하였기 때문으로 보인다고 합니다. 훈련이 계속 진행되면 분명히 가중치의 vanishing과 같은 문제로 더 이상 loss가 떨어지기 힘든 시점이 나오는데 grokking 현상은 이를 어떻게 극복하여 신경망이 높은 일반화 능력을 가지도록 하였는지 매우 궁금하네요.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다