Smooth Gradient Descent & Adagrad
·
Optimization
1. Convergence of Gradient Descent for Smooth FunctionsGradient Descent는 Lipschitz 연속 함수에서 $O(1/\sqrt{T})$의 수렴률을 갖습니다. 이때 사용하는 스텝 사이즈는 $O(1/\sqrt{T})$입니다. 이번 섹션에서는 smooth convex functions를 다루며, 이러한 경우에 Gradient Descent는 더 빠른 수렴률을 얻을 수 있습니다.함수 $f : \mathbb{R}^d \to \mathbb{R}$가 $\ell_2$ 노름에 대해 $\beta$-smooth 하다고 할 때, 다음을 만족해야 합니다:$$|\nabla f(x) - \nabla f(y)|_2 \leq \beta |x - y|_2, \quad \forall..