Convergence Analysis of ODE Models for Accelerated First-Order Methods
- novel methodology that systematically analyzes ODE models for first-roder optimization methods
- establish convergence rates of various accelerated gradient flow models.
- Lagrangian dual of a related version of continuous-time PEP를 기반으로 만들어졌다.
- 수렴 속도를 증명하는 작업을 특정 적분 커널의 positive semidefiniteness을 검증하는 문제로 변환한다.
- 전통적인 ODE models의 convergence analysis에서 적절한 Lyapunov functions을 찾는 것은 어려운 문제이다. 하지만 이 방법론은 특정한 적분 커널의 positive semidefinite을 보이기만 하면 되기 때문에 쉽게 ODE models의 수렴 속도를 증명할 수 있다.
Preliminaries: functional analysis
Function spaces
$C^1([0, T]; \mathbb{R}^d)$ : the set of continuously differentiable functions from $[0, T]$ to $\mathbb{R}^d$
일반적인 stability의 정의에서 모든 t에 대해 다루는 반면 이 논문에서는 전반적으로 유한한 시간 구간까지를 다룬다. 문제를 조금 더 단순화한 것이다.
Function의 measurability는 function의 continuity의 확장이다. Measurable해야 적분이 정의된다.
Then $L^2([0, T]; \mathbb{R}^d)$ is a Hilbert space equipped with an inner product and a norm
\[\langle f, g \rangle_{L^2([0, T]; \mathbb{R}^d)} = \int_0^T \langle f(t), g(t)\rangle_{\mathbb{R}^d} dt, \quad \vert\vert f \vert\vert_{L^2([0, T]; \mathbb{R}^d)} = \sqrt{\langle f, f \rangle_{L^2([0, T]; \mathbb{R}^d)}}\]Hilbert Space는 inner proudct와 norm이 정의된다. Hilbert space는 $L^2$를 포함한다.
Integral operators
Integral operator가 linear함을 증명해보자.
\[\begin{align*} (K (f + g))(t) &= \int_0^T k(t, \tau) (f + g)(\tau) d\tau \\ &= \int_0^T k(t, \tau) (f(\tau) + g(\tau)) d\tau \\ &= \int_0^T k(t, \tau) f(\tau) d\tau + \int_0^T k(t, \tau) g(\tau) d\tau \\ &= (K f)(t) + (K g)(t) \end{align*}\]$L^2$ space라는 것 자체가 특별하기 때문에 이름이 붙은 것이다.
The associated operator is symmetric : $\langle Kf, g \rangle = \langle f, K g \rangle$ for all $f, g \in L^2([0, T]; \mathbb{R}^d)$
Proof. $d = 1$일 때에 대해 증명해보자.
Positive semidefinite kernels
Matrix에 대한 positive semidefinite의 정의와 유사하다. Matrix의 positive semidefinite은 다음과 같이 정의된다.
영벡터가 아닌 임의의 열벡터 $x$와 대칭 행렬 $A$애 대해 다음이 성립한다면 $A$는 positive semidefinite이다.
\[x^{\top}Ax \geq 0\]$\langle Ax, x\rangle \geq 0$와 같이 표현할 수도 있다.
첫 번째 정의는 Hilbert space에서 operator에 대한 정의인 반면, 두 번째 정의는 $L^2$ space에서 kernel에 대한 정의이다. operator의 positive semidefinite을 통해 kernel의 positive semidefinite을 정의한다.
Proposition 1
(a) For $\alpha \in C([0, T]; \mathbb{R})$, the kernel $k(t, \tau) = \alpha(t) \alpha(\tau)$ is positive definite.
(b) For $k_1, k_2 \succeq 0$, their product $k(t, \tau) = k_1(t, \tau) k_2(t, \tau)$ is positive definite.
(c) For $k \succeq 0$, its anti-transpose $(t, \tau) \mapsto k(T - \tau, T - t)$ is also positive semidefinite.
(d) If $\alpha \in C^1([0, T]; \mathbb{R}_{\geq 0})$ is an increasing function on $[0, T]$, then the symmetric kernel $k$ defined as $k(t, \tau) = \alpha(\tau)$ for $t \leq \tau$ is positive semidefinite.
(e) For $k \succeq 0$, we have $k(t, t) \geq 0$ for all $t \in [0, T]$.
Continuous PEP
이 논문은 first-order methods의 ODE 모델에 대한 수렴률을 분석하는 새로운 프레임워크를 제시한다. (Continuous-time performance estimation problem (continuous PEP)). 이를 설명하기 위해서 accelerated gradient flow를 예로 들자.
만약 다음 부등식을 만족하는 $\rho$가 존재한다면 $f$가 $f(x^*)$로 수렴한다. 따라서 우리의 목표는 다음 부등식을 만족하는 $\rho$를 찾는 것이다.
\[f(X(T)) - f(x^*) \leq \rho \vert\vert x_0 - x^* \vert\vert^2\]$x_0$가 $x^$에 충분히 가까우면 $f(X(T))$가 $f(x^)$에 충분히 가깝다.
Lyapunov stable의 정의와 유사하지만 임의의 $f$가 있다는 것만 다르다.
함수 $f$가 도입되었기 때문에 위와 같이 최적화 문제로 formulation을 할 수 있는 것이다.
Convex function은 $\mu$-strongly convex function을 포함한다. 0-strongly convex function은 convex function과 일치한다.
Exact PEP의 결과값을 $\rho$로 설정할 수 있기 때문에 Exact PEP를 푸는 것은 유용하다.
Relaxed PEP
하지만 최적화 변수인 임의의 함수 $f$를 모르기 때문에 Exact PEP는 풀기 어렵다. 따라서 우리는 조건
\[f \in \mathcal{F}_0(\mathbb{R}^d; \mathbb{R})\]을 충분조건인 등식과 부등식으로 대체함으로써 Exact PEP 대신 relax된 최적화 문제(Relaxed PEP)를 다룬다.
We define $\varphi : [0, T] \rightarrow \mathbb{R}$ and $\gamma : [0, T] \rightarrow \mathbb{R}^d$
\[\varphi (t) = \dfrac{1}{\vert\vert x_0 - x^* \vert\vert^2} (f(X(t)) - f(x^*)), \quad \gamma (t) = \dfrac{1}{\vert\vert x_0 - x^* \vert\vert^2} \nabla f(X(t))\]Using the chain rule and the convexity of $f$, we can derive the following equality and inequality:
\[\begin{align*} 0 &= \dot{\varphi}(t) + \Big\langle \gamma(t), \int^t_0 H(t, \gamma) \gamma(r) dr \rangle, \\ 0 &\geq \varphi(t) + \Big\langle \gamma(t), v + \int^t_0 \int^t_\tau H(s, \tau) \gamma(\tau) \; ds \; d\tau \Big\rangle \end{align*}\]where $v = (x^* - x_0)/\vert\vert x_0 - x^* \vert\vert$. 이는 $f \in \mathcal{F}_0(\mathbb{R}^d; \mathbb{R})$의 충분조건이다.
val(Relaxed PEP) $\geq$ val(Exact PEP) 이므로 $\rho = $ val(Relaxed PEP)로 잡을 때 이는 더 느슨한 upper bound라고 할 수 있다.
Lagrangian dual of relaxed PEP
To obtain an upper bound on val(Relaxed PEP), we use Lagrangian duality.
Given $\nu_{\text{feas}} \in (0, \infty)$, suppose $S_{\lambda_1, \lambda_2, \nu_{\text{feas}}}$ is positive semidefinite with appropriate multiplier functions $\lambda_1$ and $\lambda_2$, and then $\nu_{\text{feas}}$ is a feasible solution of that minimization problem of dual problem.
Thus
\[\text{Dual} (\lambda_1, \lambda_2) \leq \nu_{\text{feas}}\]Therefore, by weak duality,
\[\text{val(Relatex PEP)} \leq \text{val(Exact PEP)} \leq \text{Dual} (\lambda_1, \lambda_2) \leq \nu_{\text{feas}}\]이걸 이용하면 우리는 알려진 AGM ODE의 convergance guarantee $\rho = \dfrac{2}{T^2}$을 얻을 수 있다.
Proposition 2
Proof. Let multiplier functions
\[\lambda_1(t) = \dfrac{t^2}{T^2}, \quad \lambda_2(t) = \dfrac{2t}{T^2}\]and then PEP kernel is
\[\begin{align*} S_{\lambda_1, \lambda_2, \nu} (t, \tau) &= \nu \left( \lambda_1(t)H(t, \tau) + \lambda_2(t) \int_{\tau}^{t}H(s, \tau) ds \right) - \dfrac{1}{2} \lambda_2(t) \lambda_2(\tau) \\ &= \nu \left( \dfrac{t^2}{T^2} \dfrac{\tau^3}{t^3} + \dfrac{2t}{T^2} \int_{\tau}^{t} \dfrac{\tau^3}{s^3} ds \right) - \dfrac{1}{2} \dfrac{2t}{T^2} \dfrac{2\tau}{T^2} \\ &= \nu \left( \dfrac{\tau^3}{t T^2} + \dfrac{2t}{T^2} \left( \dfrac{1}{2\tau^2} - \dfrac{1}{2t^2} \right) \right) - \dfrac{2t\tau}{T^4} \\ &= \left( \nu - \dfrac{2}{T^2} \right) \dfrac{t \tau}{T^2} \end{align*}\]Since the kernel $(t, \tau) \mapsto t\tau$ is nonzero and positive semdidefinite by Proposition 1,
\[S_{\lambda_1, \lambda_2, \nu}(t, \tau) \succeq 0 \; \Leftrightarrow \; \nu \geq \dfrac{2}{T^2}\]Also since $\lambda_1(0) = 0, \; \lambda_1(T) = 1, \; \dot{\lambda}_1(t) = \lambda_2(t)$,
\[\begin{align*} \text{Dual}(\lambda_1, \lambda_2) &= \inf_{\nu \in (0, \infty)} \left[\nu: S_{\lambda_1, \lambda_{2, \nu}} \succeq 0 \right] \\ &= \inf_{\nu \in (0, \infty)} \left[\nu: \nu \geq \dfrac{2}{T^2} \right] \\ &= \dfrac{2}{T^2} \end{align*}\], which establishes the convergence guarantee with $\rho = \dfrac{2}{T^2}$.
Example
Reparametrization
지금까지는 $\mu = 0$ 인 non-strongly convex 함수에 대해 제안된 방법을 적용해왔지만, 아래와 같은 재매개변수화 기법을 통해
\[\hat{f}(x) := f(x) - \dfrac{\mu}{2} \vert\vert x - x_0 \vert\vert^2\]μ-strongly convex 함수에도 동일한 방법을 적용할 수 있다.
Continuous PEP를 이용해서 각 ODE 모델의 수렴 속도를 분석해보자.
AGM-SC ODE
ODE of Nestrov’s AGM for strongly convex case
\[\ddot{X} + 2\sqrt{\mu} \dot{X} + \nabla f(X) = 0\]Unified AGM ODE
ODE unifying AGM ODE and AGM-SC ODE
\[\ddot{X} + \dfrac{\sqrt{\mu}}{2} (\tan h_t + 3\cot h_t) \dot{X} + \nabla f(X) = 0\]TMM ODE
ODE of triple momentum method
\[\ddot{X} + 3\sqrt{\mu} \dot{X} + 2 \nabla f(X) = 0\]ITEM ODE
ODE of the information-theoretic exact method
\[\ddot{X} + 3\sqrt{\mu} \cot h_t \dot{X} + 2 \nabla f(X) = 0\]
Q
\[f(X(T)) - f(x^*) \leq \rho \vert\vert x_0 - x^* \vert\vert^2\]는 어디에서 도출된 걸까?