优化方法速通

近端算子(Proximal Operator) 是一种用来处理非平滑凸函数的极佳工具。标准数学定义为：对于一个凸函数 \(R(x)\) 和一个参数 \(\gamma > 0\)，点 \(v\) 的近端算子定义为：

\[ \text{prox}_{\gamma R}(v) = \arg\min_x \left( R(x) + \frac{1}{2\gamma} ||x - v||^2 \right) \]

近端算子 \(\text{prox}_{\gamma R}\) 具有 非扩张性（Non-expansiveness） ，即对于任意 \(u, v\)，有 \(||\text{prox}_{\gamma R}(u) - \text{prox}_{\gamma R}(v)|| \le ||u - v||\)。

有一个特殊的性质，若 \(z=\text{prox}_{\gamma R}(v)\)，那么有

\[ 0\in \partial R(z) + \frac{1}{\gamma}(z - v) \Longleftrightarrow v\in z + \gamma \partial R(z) \]

反过来若 \(v\in z - \gamma \partial R(z)\)，则 \(z=\text{prox}_{\gamma R}(v)\)。

例题(Spring, 2025, C2) 假设 \(f(x)\) 是连续可导的 \(L\)-平滑且 \(\mu\)-强凸函数。

证明 \(g(x) = f(x) - \frac{\mu}{2}||x||^2\) 是连续可导的、凸的，并且是 \((L-\mu)\)-平滑的。
利用性质 \(\frac{1}{L-\mu}||\nabla g(x)-\nabla g(y)||^2 \le \langle \nabla g(x)-\nabla g(y), x-y \rangle\) ，证明以下不等式成立：

\[ \mu||x-y||^2 + \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2 \le (1+\frac{\mu}{L})\langle \nabla f(x)-\nabla f(y), x-y \rangle \]

解答： \((1)\)：首先，计算 \(g(x)\) 的梯度：

\[ \nabla g(x) = \nabla f(x) - \mu x \]

由于 \(f(x)\) 是连续可导的，且 \(\mu x\) 也是连续可导的，因此 \(g(x)\) 也是连续可导的。

证明 \(g(x)\) 是凸的只需 \(\langle \nabla g(x) - \nabla g(y), x - y \rangle \ge 0\)，而

\[ \begin{aligned} \langle \nabla g(x) - \nabla g(y), x - y \rangle &= \langle \nabla f(x) - \nabla f(y) - \mu (x - y), x - y \rangle\\ &= \langle \nabla f(x) - \nabla f(y), x - y \rangle - \mu ||x - y||^2\\ &\ge 0 \end{aligned} \]

其中最后一步利用了 \(f(x)\) 的 \(\mu\)-强凸性质。

接下来证明 \(g(x)\) 是 \((L-\mu)\)-平滑的。只需证明 \(\frac{L-\mu}{2}||x||^2-g(x)\) 是凸函数。而

\[ \begin{aligned} \frac{L-\mu}{2}||x||^2 - g(x) &= \frac{L-\mu}{2}||x||^2 - f(x) + \frac{\mu}{2}||x||^2\\ &= \frac{L}{2}||x||^2 - f(x) \end{aligned} \]

由于 \(f(x)\) 是 \(L\)-平滑的，所以 \(\frac{L}{2}||x||^2 - f(x)\) 是凸函数。

\((2)\)：纯计算。

例题(Spring, 2025, C3) 对于 \(g(x,\xi)=\nabla f(x) + \xi\)，其中 \(\xi\) 为零均值的噪声满足 \(\mathbb{E}[||\xi||^2]\le \sigma^2\)，SGD 的更新规则为 \(x^{k+1} = \text{prox}_{\gamma R}(x^k - \gamma g(x^k, \xi^k))\) 。利用近端算子的非扩张性（non-expansiveness）和 \(\text{prox}_{\gamma R}\) 的最优性条件，推导 \(||x^{k+1}-x^*||^2\) 的递推关系：

\[ ||x^{k+1}-x^*||^2 \le ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*) + \xi^k)||^2 \]

解答： 对于最优解 \(x^*\)，它满足原问题 \(\min_x f(x) + R(x)\) 的一阶最优性条件：

\[ 0 \in \nabla f(x^*) + \partial R(x^*)\implies x^* - \gamma \nabla f(x^*) \in x^* + \gamma \partial R(x^*) \]

这等价于不动点形式 \(x^* = \text{prox}_{\gamma R}(x^* - \gamma \nabla f(x^*))\)。于是我们有：

\[ \begin{aligned} ||x^{k+1} - x^*|| &= ||\text{prox}_{\gamma R}(x^k - \gamma g(x^k, \xi^k)) - \text{prox}_{\gamma R}(x^* - \gamma \nabla f(x^*))||\\ &\le ||(x^k - \gamma g(x^k, \xi^k)) - (x^* - \gamma \nabla f(x^*))||\\ &= ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*) + \xi^k)||\\ \end{aligned} \]

例题(Spring, 2025, C4) 解释什么是方差分解？说明如何将其应用于 \(||x^{k+1}-x^*||^2\) 并推导以下不等式：

\[ \mathbb{E}_k[||x^{k+1}-x^*||^2] \le ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*))||^2 + \gamma^2\sigma^2 \]

其中 \(\mathbb{E}_k[\cdot]\) 表示给定 \(\xi^k, ..., \xi^0\) 的条件期望。

解答： 方差分解是概率论中的基本恒等式。对于任意随机向量 \(Z\)，它的二阶矩可以分解为：

\[ \mathbb{E}[||Z||^2] = ||\mathbb{E}[Z]||^2 + \mathbb{E}[||Z - \mathbb{E}[Z]||^2] \]

在我们的例子中，设 \(Z = x^{k+1} - x^*\)，则：

\[ \begin{aligned} \mathbb{E}_k[||x^{k+1}-x^*||^2] &= ||\mathbb{E}_k[x^{k+1}-x^*]||^2 + \mathbb{E}_k[||x^{k+1}-x^* - \mathbb{E}_k[x^{k+1}-x^*]||^2]\\ &= ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*))||^2 + \mathbb{E}_k[||\gamma \xi^k||^2]\\ &= ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*))||^2 + \gamma^2 \mathbb{E}_k[||\xi^k||^2]\\ &\le ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*))||^2 + \gamma^2\sigma^2 \end{aligned} \]

例题(Spring, 2025, C5) 利用期望的塔式性质（tower property），证明当步长 \(\gamma=\frac{2}{\mu+L}\) 时，C.4 的递推式可以简化为：

\[ \mathbb{E}[||x^{k+1}-x^*||^2] \le (1-\rho)\mathbb{E}[||x^k-x^*||^2] + \gamma^2\sigma^2 \]

其中 \(\rho=\frac{4\mu L}{(\mu+L)^2}\) 。

解答： 由 \(C4\) 我们有 \(LHS\le ||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*))||^2 + \gamma^2\sigma^2\)。而

\[ \begin{aligned} &||x^k - x^* - \gamma(\nabla f(x^k) - \nabla f(x^*))||^2\\ =& ||x^k - x^*||^2 - 2\gamma \langle \nabla f(x^k) - \nabla f(x^*), x^k - x^* \rangle + \gamma^2 ||\nabla f(x^k) - \nabla f(x^*)||^2\\ \le& ||x^k - x^*||^2 - 2\gamma \langle \nabla f(x^k) - \nabla f(x^*), x^k - x^* \rangle + \gamma^2 L \langle \nabla f(x^k) - \nabla f(x^*), x^k - x^* \rangle\\ =& ||x^k - x^*||^2 - \gamma(2 - \gamma L) \langle \nabla f(x^k) - \nabla f(x^*), x^k - x^* \rangle\\ \le& ||x^k - x^*||^2 - \gamma(2 - \gamma L) \mu ||x^k - x^*||^2\\ =& (1 - \gamma(2 - \gamma L) \mu) ||x^k - x^*||^2 \end{aligned} \]

当 \(\gamma = \frac{2}{\mu + L}\) 时，\(1 - \gamma(2 - \gamma L) \mu = 1 - \frac{4\mu L}{(\mu + L)^2} = 1 - \rho\)，代入根据全期望公式（塔式性质）\(\mathbb{E}[\cdot] = \mathbb{E}[\mathbb{E}_k[\cdot]]\) 即得。

例题(Spring, 2025, C6) 证明对于任意精度 \(\epsilon>0\)，存在一个步长使得

\[ k \ge \frac{L/\mu+3}{4}\log\frac{1}{\epsilon} \]

时，满足：

\[ \mathbb{E}[||x^k-x^*||^2] \le \epsilon||x^0-x^*||^2 + \frac{\gamma\sigma^2}{\mu} \]

解答： 由 \(C5\) 递推可得：

\[ \begin{aligned} \mathbb{E}[||x^k-x^*||^2] &\le (1-\rho)^k \mathbb{E}[||x^0-x^*||^2] + \frac{\gamma^2\sigma^2}{\rho}\\ &\le \epsilon||x^0-x^*||^2 + \frac{\gamma^2\sigma^2}{\rho} \end{aligned} \]

一方面 \(\frac{\gamma^2\sigma^2}{\rho} = \frac{4\sigma^2}{\mu L}\cdot \frac{1}{(\mu + L)^2} \le \frac{\gamma\sigma^2}{\mu}\)，另一方面要让 \((1-\rho)^k \le \epsilon\)，只需 \(k \ge \frac{\log(1/\epsilon)}{\log(1/(1-\rho))}\)，又 \(\frac{\log(1/\epsilon)}{\log(1/(1-\rho))} \le \frac{1}{\rho}\log\frac{1}{\epsilon}\)，而 \(\frac{1}{\rho} = \frac{(\mu + L)^2}{4\mu L} = \frac{1}{4}(\frac{L}{\mu} + 2 + \frac{\mu}{L}) \le \frac{L/\mu + 3}{4}\)。