밑바닥부터 시작하는 딥러닝 1 - 매개변수 갱신 방법경사 하강법은 기울기를 따라 내려가면 된다는 단순한 아이디어에서 출발한다. 하지만 실제 손실 함수의 지형은 항상 둥근 그릇처럼 친절하지 않다.길게 늘어진 골짜기에서는 SGD가 지그재그로 흔들릴 수 있고, 이를 줄이기 위해 Momentum, AdaGrad, Adam 같은 방법이 등장한다.이번 글에서 잡을 것SGD는 현재 기울기만 보고 이동한다.Momentum은 과거 이동 방향, 즉 관성을 기억한다.AdaGrad는 매개변수별로 얼마나 많이 움직였는지 기억한다.Adam은 Momentum과 AdaGrad의 아이디어를 함께 사용한다.SGD의 지그재그길게 늘어진 그릇 모양의 지형에서는 한쪽 방향의 기울기가 훨씬 가파르다. SGD는 현재 위치의 가장 큰 기울기에 반..