Smooth Gradient Descent & Adagrad
·
Optimization
1. Convergence of Gradient Descent for Smooth FunctionsGradient Descent는 Lipschitz 연속 함수에서 $O(1/\sqrt{T})$의 수렴률을 갖습니다. 이때 사용하는 스텝 사이즈는 $O(1/\sqrt{T})$입니다. 이번 섹션에서는 smooth convex functions를 다루며, 이러한 경우에 Gradient Descent는 더 빠른 수렴률을 얻을 수 있습니다.함수 $f : \mathbb{R}^d \to \mathbb{R}$가 $\ell_2$ 노름에 대해 $\beta$-smooth 하다고 할 때, 다음을 만족해야 합니다:$$|\nabla f(x) - \nabla f(y)|_2 \leq \beta |x - y|_2, \quad \forall..
1. Convex Optimization
·
Optimization
Convex Sets집합 $X \subseteq \mathbb{R}^d$가 convex 하려면, 임의의 $u, v \in X$와 $\lambda \in [0, 1]$에 대해 다음을 만족해야 합니다:$$\lambda u + (1 - \lambda) v \in X$$즉, 두 점을 잇는 선분이 전부 집합 내에 포함되어야 합니다.Examples of Convex SetsEmpty set 및 Singletons (공집합 및 싱글톤 집합 ${v}$)Norm ball: 노름 공은 중심이 $c$이고 반지름이 $r$인 공으로 정의되며, 다음과 같습니다:$${x \in \mathbb{R}^d : |x - c| \leq r}$$Ellipsoid: 타원체는 중심이 $c$이고, 양의 정부호 행렬 $P$를 사용하는 타원체로 정의..