[논문 리뷰] Meta-Learning through Hebbian Plasticity in Random Networks
Abstract
동물은 LifeLong Learning과 적응을 할 수 있다. 하지만 modern RL은 한번 학습이 끝나면 더이상 수정되거나 새로운 데이터에 적응하지 못한다. 아직 동물이 어떻게 새로운 정보에 잘 적응하는지는 모르지만 synaptic plasticity가 큰 역할을 하는 것으로 보인다. 우리는 이러한 생물학적인 메커니즘에 영감을 받아 신경망의 weight을 직접 최적화하는 것이 아닌 synapce-specific hebbian rules를 학습하도록 하여 에이전트로 하여금 lifetime동안 스스로 neural weight을 self-organize할 수 있도록 하였다. 우리는 총 450k의 trainable plasticity parameters를 이용하였고 2d carracing 환경과 3d locomition 환경에서 시험해본 결과 잘 학습 하는것을 확인하였다. 또한 3d locomotion에서 에이전트의 다리에 데미지를 주어 에이전트가 보지 못한 상황을 연출하여도 스스로 neural weight을 self-organizing 하여 100스텝 이내로 복하는 모습을 보였다.
Introduction
많은 동물들은 태어나자마자 매우 짧은 시간동안 보행을 성공적으로 익힌다. 이러한 학습에 있어서 2가지 메커니즘이 제안된다 : 1) top-down feedback propagating errors를 통한 end-to-end 학습(현대 딥러닝같은방법을 말하는듯), 2) local activity만을 통해 synaptic connection dynamics를 regulate하는 방법. 후자는 hebbian learning으로 알려져있다.
본 논문에서는 에이전트로 하여금 lifetime동안 환경에 적응할 수 있도록 하는 것에 관심을 가진다. 우린 self-organized 과정만으로 random-initialized 된 network을 학습하는 방법을 제안한다.
위에서 말했듯이 3d locomotion 환경에서 다리에 데미지를 줘도 hebbian rule이 self-orginizing을 통해 잘 회복하는 모습을 보인다.
Related Work
Meta Learning : learning to reinforcement learn이라는 논문이 대표적이다. 여기서는 정적인 기존 ANN + lstm으로 접근했는데 위 논문에서는 reward signal을 신경망의 input으로 줬지만 우린 안줬다. 최근에는 좋은 초기 신경망 weight을 찾는 것이 meta learning 트렌드다(MAML 인용). 하지만 가변적인 신경망(plastic networks)을 통한 meta learning은 덜 연구되고 있다. 우리랑 가장 비슷한 prior work는 Floreano and Urzelai인데, 이 논문은 고작 4개의 hebbian rules 파라메터와 12개의 뉴런을 이용한 작은 네트워크에서 실험하였다. 또한 최근에 local learning rules를 진화학습이 아닌 gradient descent 방식을 통해 학습시킨 논문이 나왔다[14]. 하지만 언급한 연구에서는 각 뉴런이 얼마나 plastic한지만 학습시킬 수 있다면 본 논문에서는 각 connection이 각각의 hebbian learning rule을 가질 수 있도록 한다(후속 연구에서는 각각의 연결이 각각의 rules를 가지고 있는 것이 generalization 성능을 해친다며 k-means 클러스터링으로 묶는다).
Self-Organization : 우리 연구는 Mord-vintsev et al에서 제안한 연구와 비슷하다. 다만 위 연구는 self-organization을 통해 이미지를 생성한다. self-organization의 장점은 robust하고 adaptive하다는 것이다. 우리의 목표는 우리가 제안하는 연구를 기존 neural-network RL agent만큼 잘하게 만드는 것이다.
Neuroscience :
(작성중)