本文是对 IRS论文 Weighted Sum-Rate Optimization for Intelligent Reflecting Surface Enhanced Wireless Networks 的读书笔记。 选择这篇文章首先是因为作者非常良心地分享了具体代码:传送门, 其次文中用到的 分式规划 和 ADMM 也很值得学习, 又恰好是智能反射面背景。 由于本文涉及到的这两种算法都值得细究, 因此分为上下两篇来一一阐述。
系统模型本文考虑的 IRS 系统模型 其实和之前写过的 基于SDR的智能反射面波束成形设计 中一致, 都是下行的 多单天线用户场景。 而最大的不同点则在于, 本文考虑的是 速率 (rate) 的优化问题, 前者则考虑的是 发送功率 的 优化问题。 不同的优化目标也对应了两文算法的差异。 根据MIMO的基本知识, 每个用户的SINR值为: γ k = ∣ ( h d , k H + h r , k H Θ H G ) w k ∣ 2 ∑ i = 1 , i ≠ k K ∣ ( h d , k H + h r , k H Θ H G ) w i ∣ 2 + σ 0 2 \gamma_{k}=\frac{\left|\left(\mathbf{h}_{\mathrm{d}, k}^{\mathrm{H}}+\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}} \Theta^{\mathrm{H}} \mathbf{G}\right) \mathbf{w}_{k}\right|^{2}}{\sum_{i=1, i \neq k}^{K}\left|\left(\mathbf{h}_{\mathrm{d}, k}^{\mathrm{H}}+\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}} \boldsymbol{\Theta}^{\mathrm{H}} \mathbf{G}\right) \mathbf{w}_{i}\right|^{2}+\sigma_{0}^{2}} γk=∑i=1,i=kK∣∣∣(hd,kH+hr,kHΘHG)wi∣∣∣2+σ02∣∣∣(hd,kH+hr,kHΘHG)wk∣∣∣2
此处的符号定义与 基于SDR的智能反射面波束成形设计 基本完全一致, 不再赘述。 而本文对应的优化问题则是:
( P 1 ) max W , Θ f 1 ( W , Θ ) = ∑ k = 1 K ω k log 2 ( 1 + γ k ) s.t. θ n ∈ F , ∀ n = 1 , ⋯ , N ∑ k = 1 K ∥ w k ∥ 2 ≤ P T , \begin{array}{cl} (\mathrm{P} 1) \max _{\mathbf{W}, \boldsymbol{\Theta}} & f_{1}(\mathbf{W}, \boldsymbol{\Theta})=\sum_{k=1}^{K} \omega_{k} \log _{2}\left(1+\gamma_{k}\right) \\ \text { s.t. } & \theta_{n} \in \mathcal{F}, \quad \forall n=1, \cdots, N \\ & \sum_{k=1}^{K}\left\|\mathbf{w}_{k}\right\|^{2} \leq P_{\mathrm{T}}, \end{array} (P1)maxW,Θ s.t. f1(W,Θ)=∑k=1Kωklog2(1+γk)θn∈F,∀n=1,⋯,N∑k=1K∥wk∥2≤PT,
作者提到: 给定发送功率的情况下最大化速率, 和给定速率约束的情况下最大化用户的最小发送功率,在数学上是等效的。 不管怎么说, 本文应该是第一篇以速率为优化目标的IRS波束成形文章, 而在看他的具体算法推导前, 我们先阐述下 F \mathcal{F} F 的意义。 由于 F \mathcal{F} F 代表的是智能反射面系数矩阵的取值定义域, 作者考虑了三种不同的场景:
- 理想场景: 智能反射面单元对入射信号可以进行幅度和相位的完美调整, 因此唯一的限制就是能量守恒约束, 即: F 1 = { θ n ∣ ∣ θ n ∣ 2 ≤ 1 } \mathcal{F}_{1}=\left\{\left.\theta_{n}|| \theta_{n}\right|^{2} \leq 1\right\} F1={θn∣∣θn∣2≤1}
- 连续相移: 这也是最常见的假设。 认为IRS单元只起到一个相移的作用, 且假设相位可取连续的任意值。 因此, 对应为: F 2 = { θ n ∣ θ n = e j φ n , φ n ∈ [ 0 , 2 π ) } \mathcal{F}_{2}=\left\{\theta_{n} \mid \theta_{n}=e^{j \varphi_{n}}, \varphi_{n} \in[0,2 \pi)\right\} F2={θn∣θn=ejφn,φn∈[0,2π)}
- 离散相移: 顾名思义, 相较于 F 2 \mathcal{F}_2 F2, 只有有限个相位可以选取, 即: F 3 = { θ n ∣ θ n = e j φ n , φ n ∈ { 0 , 2 π τ , ⋯ , 2 π ( τ − 1 ) τ } } \mathcal{F}_{3}=\left\{\theta_{n} \mid \theta_{n}=e^{j \varphi_{n}}, \varphi_{n} \in\left\{0, \frac{2 \pi}{\tau}, \cdots, \frac{2 \pi(\tau-1)}{\tau}\right\}\right\} F3={θn∣θn=ejφn,φn∈{0,τ2π,⋯,τ2π(τ−1)}}
显然, (P1)并不是一个容易求解的问题。 因此在这一节, 作者先使用 分式规划 方法, 对问题进行了简化。 分式规划 的具体参考文献可以参考作者给出的引文 Fractional Programming for Communication Systems—Part I: Power Control and Beamforming。
通过引入一个人工辅助变量, α = [ α 1 , ⋯ , α k , ⋯ , α K ] T \boldsymbol{\alpha}=\left[\alpha_{1}, \cdots, \alpha_{k}, \cdots, \alpha_{K}\right]^{\mathrm{T}} α=[α1,⋯,αk,⋯,αK]T, (P1) 中的目标函数可以等效转化为: f 1 a ( W , Θ , α ) = ∑ k = 1 K ω k log 2 ( 1 + α k ) − ∑ k = 1 K ω k α k + ∑ k = 1 K ω k ( 1 + α k ) γ k 1 + γ k \begin{gathered} f_{1 a}(\mathbf{W}, \boldsymbol{\Theta}, \boldsymbol{\alpha})=\sum_{k=1}^{K} \omega_{k} \log _{2}\left(1+\alpha_{k}\right)-\sum_{k=1}^{K} \omega_{k} \alpha_{k} +\sum_{k=1}^{K} \frac{\omega_{k}\left(1+\alpha_{k}\right) \gamma_{k}}{1+\gamma_{k}} \end{gathered} f1a(W,Θ,α)=k=1∑Kωklog2(1+αk)−k=1∑Kωkαk+k=1∑K1+γkωk(1+αk)γk 先说明这一步转化的意义, 当后续固定 α \boldsymbol{\alpha} α 进行交替迭代时, 对 W , Θ \mathbf{W}, \boldsymbol{\Theta} W,Θ 的优化的目标函数就等效为: max W , Θ ∑ k = 1 K α ~ k γ k 1 + γ k \max _{\mathbf{W}, \boldsymbol{\Theta}} \sum_{k=1}^{K} \frac{\tilde{\alpha}_{k} \gamma_{k}}{1+\gamma_{k}} W,Θmaxk=1∑K1+γkα~kγk 其中 α ~ k = ω k ( 1 + α k ) \tilde{\alpha}_{k}=\omega_{k}\left(1+\alpha_{k}\right) α~k=ωk(1+αk)。 而这是一个分式, 就可以应用分式规划进行求解了。
那么我们首先讲一下为什么可以这么转化, 这是在 Fractional Programming for Communication Systems—Part II: Uplink Scheduling via Matching 一文中作者给出的定理:
拉格朗日对偶转化: ∑ m = 1 M w m log ( 1 + A m ( x ) B m ( x ) ) ⇒ ∑ m = 1 M w m log ( 1 + γ m ) − ∑ m = 1 M w m γ m + ∑ m = 1 M w m ( 1 + γ m ) A m ( x ) A m ( x ) + B m ( x ) \sum_{m=1}^{M} w_{m} \log \left(1+\frac{A_{m}(\mathbf{x})}{B_{m}(\mathbf{x})}\right)\Rightarrow \sum_{m=1}^{M} w_{m} \log \left(1+\gamma_{m}\right)-\sum_{m=1}^{M} w_{m} \gamma_{m}+\sum_{m=1}^{M} \frac{w_{m}\left(1+\gamma_{m}\right) A_{m}(\mathbf{x})}{A_{m}(\mathbf{x})+B_{m}(\mathbf{x})} m=1∑Mwmlog(1+Bm(x)Am(x))⇒m=1∑Mwmlog(1+γm)−m=1∑Mwmγm+m=1∑MAm(x)+Bm(x)wm(1+γm)Am(x) 左边是原始目标, A m A_m Am 和 B m B_m Bm 代表 x \mathbf{x} x 的函数, 右边则是转化的拉格朗日对偶等效目标, γ m \gamma_m γm则是引入的辅助变量。 两者的等效性可以由下得证:
由于 右边是一个 对于 γ m \gamma_m γm 可微的凹函数 ( log \log log为凹, 减去一个仿射) , 因此最大化右边函数的 γ m \gamma_m γm 为: ∂ f r / ∂ γ m = 0 ⇒ γ ⋆ = A m ( x ) / B m ( x ) \partial f_{r} / \partial \gamma_{m}=0\Rightarrow \gamma^{\star}=A_{m}(\mathbf{x}) / B_{m}(\mathbf{x}) ∂fr/∂γm=0⇒γ⋆=Am(x)/Bm(x) 代入最优的 γ m \gamma_m γm, 形式就和左边一样了。 等效性因此得证。 我们先来看这一步转化的意义 —— 左边的 A m A_m Am 和 B m B_m Bm 已经不在 log \log log 中了, 且成为了标准的 分式和 的形式。 应用此定理相对简单, 只是不知道作者又是如何想到这样进行 γ m \gamma_m γm 的构造的!
有了这个定理, 回到文章中来, 对 (P1)的目标的转化就显而易见了。 令 A m ( x ) = γ k A_m(x) = \gamma_k Am(x)=γk, B m ( x ) = 1 B_m(x) = 1 Bm(x)=1, 就不难得到了。
对原文题进行这样的一步等效转化后, 作者采用交替优化的方式来解, 具体如下:
需要指出的是, 当固定其他变量时, 辅助变量 α \alpha α 有闭式解为 : α k ∘ = γ k \alpha_{k}^{\circ}=\gamma_{k} αk∘=γk。 从上面的定理中我们对 A A A B B B 的赋值中也可以看出。 因此关键点就成了当固定 α \alpha α 时, 对其余变量的优化, 即预编码和IRS矩阵的设计。 现在问题可以转化为:
max W f 2 ( W ) s.t. ∑ k = 1 K ∥ w k ∥ 2 ≤ P T . \begin{aligned} \max _{\mathbf{W}} & f_{2}(\mathbf{W}) \\ \text { s.t. } & \sum_{k=1}^{K}\left\|\mathbf{w}_{k}\right\|^{2} \leq P_{\mathrm{T}} . \end{aligned} Wmax s.t. f2(W)k=1∑K∥wk∥2≤PT.
其中, f 2 ( W ) = ∑ k = 1 K α ~ k γ k 1 + γ k = ∑ k = 1 K α ~ k ∣ h k H w k ∣ 2 ∑ i = 1 K ∣ h k H w i ∣ 2 + σ 0 2 \begin{aligned} f_{2}(\mathbf{W}) &=\sum_{k=1}^{K} \frac{\tilde{\alpha}_{k} \gamma_{k}}{1+\gamma_{k}} =\sum_{k=1}^{K} \frac{\tilde{\alpha}_{k}\left|\mathbf{h}_{k}^{\mathrm{H}} \mathbf{w}_{k}\right|^{2}}{\sum_{i=1}^{K}\left|\mathbf{h}_{k}^{\mathrm{H}} \mathbf{w}_{i}\right|^{2}+\sigma_{0}^{2}} \end{aligned} f2(W)=k=1∑K1+γkα~kγk=k=1∑K∑i=1K∣∣hkHwi∣∣2+σ02α~k∣∣hkHwk∣∣2
而进一步的转化则需要用到分式规划中的另一个重要的定理:
二次转换:
对于以下形式的的问题有如下等效转换:
maximize x ∑ m = 1 M a m † ( x ) B m − 1 ( x ) a m ( x ) ⇒ maximize x , y ∑ m = 1 M ( 2 Re { y m † a m ( x ) } − y m † B m ( x ) y m ) \underset{\mathbf{x}}{\operatorname{maximize}} \sum_{m=1}^{M} \mathbf{a}_{m}^{\dagger}(\mathbf{x}) \mathbf{B}_{m}^{-1}(\mathbf{x}) \mathbf{a}_{m}(\mathbf{x})\Rightarrow \underset{\mathbf{x},\mathbf{y}}{\operatorname{maximize}}\sum_{m=1}^{M}\left(2 \operatorname{Re}\left\{\mathbf{y}_{m}^{\dagger} \mathbf{a}_{m}(\mathbf{x})\right\}-\mathbf{y}_{m}^{\dagger} \mathbf{B}_{m}(\mathbf{x}) \mathbf{y}_{m}\right) xmaximizem=1∑Mam†(x)Bm−1(x)am(x)⇒x,ymaximizem=1∑M(2Re{ym†am(x)}−ym†Bm(x)ym)
这里 y m y_m ym 是引入的人工变量。 这样转换的优势在于, 转换后的问题已经不再有逆矩阵的棘手形式, 从而简化了求解。 其等效性也易求证: 由于右边对于 y \mathbf{y} y 是一个凹函数, 因此通过求导, 可得 y m ⋆ = B m − 1 ( x ) a m ( x ) \mathbf{y}_{m}^{\star}=\mathbf{B}_{m}^{-1}(\mathbf{x}) \mathbf{a}_{m}(\mathbf{x}) ym⋆=Bm−1(x)am(x) 为 其闭式解。 将之代入, 即可发现左右相等。
利用这一定理, f 2 ( W ) f_2(\mathbf{W}) f2(W) 即可重写为: f 2 ( W , β ) = ∑ k = 1 K 2 α ~ k Re { β k ∗ h k H w k } − ∑ k = 1 K ∣ β k ∣ 2 ( ∑ i = 1 K ∣ h k H w i ∣ 2 + σ 0 2 ) \begin{aligned} f_{2}(\mathbf{W}, \boldsymbol{\beta})=& \sum_{k=1}^{K} 2 \sqrt{\tilde{\alpha}_{k}} \operatorname{Re}\left\{\beta_{k}^{*} \mathbf{h}_{k}^{\mathrm{H}} \mathbf{w}_{k}\right\} -\sum_{k=1}^{K}\left|\beta_{k}\right|^{2}\left(\sum_{i=1}^{K}\left|\mathbf{h}_{k}^{\mathrm{H}} \mathbf{w}_{i}\right|^{2}+\sigma_{0}^{2}\right) \end{aligned} f2(W,β)=k=1∑K2α~k Re{βk∗hkHwk}−k=1∑K∣βk∣2(i=1∑K∣∣hkHwi∣∣2+σ02) 这里 β k \beta_k βk 即是引入的辅助变量。
类似地, 对 f 2 ( W ) f_2(\mathbf{W}) f2(W) 的优化也是使用了交替优化。 而当固定其他变量时, f 2 ( W f_{2}(\mathbf{W} f2(W 对于 β \beta β 和 w \mathbf{w} w 都是凹函数, 因此, 可以直接用求导为0, 求出两者的闭式解,即:
β k ∘ = α ~ k h k H w k ∑ i = 1 K ∣ h k H w i ∣ 2 + σ 0 2 , w k ∘ = α ~ k β k ( λ 0 I M + ∑ i = 1 K ∣ β i ∣ 2 h i h i H ) − 1 h k , \beta_{k}^{\circ}=\frac{\sqrt{\tilde{\alpha}_{k}} \mathbf{h}_{k}^{\mathrm{H}} \mathbf{w}_{k}}{\sum_{i=1}^{K}\left|\mathbf{h}_{k}^{\mathrm{H}} \mathbf{w}_{i}\right|^{2}+\sigma_{0}^{2}},\mathbf{w}_{k}^{\circ}=\sqrt{\tilde{\alpha}_{k}} \beta_{k}\left(\lambda_{0} \mathbf{I}_{M}+\sum_{i=1}^{K}\left|\beta_{i}\right|^{2} \mathbf{h}_{i} \mathbf{h}_{i}^{\mathrm{H}}\right)^{-1} \mathbf{h}_{k}, βk∘=∑i=1K∣∣hkHwi∣∣2+σ02α~k hkHwk,wk∘=α~k βk(λ0IM+i=1∑K∣βi∣2hihiH)−1hk, 其中 λ 0 \lambda_0 λ0 为由功率约束条件引入的拉格朗日算子, 其值为: λ 0 ∘ = min { λ 0 ≥ 0 : ∑ k = 1 K ∥ w k ∥ 2 ≤ P T } \lambda_{0}^{\circ}=\min \left\{\lambda_{0} \geq 0: \sum_{k=1}^{K}\left\|\mathbf{w}_{k}\right\|^{2} \leq P_{\mathrm{T}}\right\} λ0∘=min{λ0≥0:k=1∑K∥wk∥2≤PT}
而当这些变量都可以轻松地给出闭式解后(因为都没什么棘手的限制条件), 也到了本文的重点, 即对 IRS 系数矩阵进行的优化。
优化 IRS系数固定了其他变量之后, 我们提取出原目标函数中和 IRS 系数矩阵相关的项, 即:
f 3 u ( Θ ) = ∑ k = 1 K α ~ k γ k 1 + γ k = ∑ k = 1 K α ~ k ∣ ( h d , k H + h r , k H Θ H G ) w k ∣ 2 ∑ i = 1 K ∣ ( h d , k H + h r , k H Θ H G ) w i ∣ 2 + σ 0 2 \begin{aligned} f_{3 u}(\boldsymbol{\Theta}) &=\sum_{k=1}^{K} \frac{\tilde{\alpha}_{k} \gamma_{k}}{1+\gamma_{k}} &=\sum_{k=1}^{K} \frac{\tilde{\alpha}_{k}\left|\left(\mathbf{h}_{\mathrm{d}, k}^{\mathrm{H}}+\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}} \Theta^{\mathrm{H}} \mathbf{G}\right) \mathbf{w}_{k}\right|^{2}}{\sum_{i=1}^{K}\left|\left(\mathbf{h}_{\mathrm{d}, k}^{\mathrm{H}}+\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}} \Theta^{\mathrm{H}} \mathbf{G}\right) \mathbf{w}_{i}\right|^{2}+\sigma_{0}^{2}} \end{aligned} f3u(Θ)=k=1∑K1+γkα~kγk=k=1∑K∑i=1K∣∣∣(hd,kH+hr,kHΘHG)wi∣∣∣2+σ02α~k∣∣∣(hd,kH+hr,kHΘHG)wk∣∣∣2 这里先使用一个常见的转化, 并令 a i , k = η diag ( h r , k H ) G w i , b i , k = h d , k H w i \mathbf{a}_{i, k}=\sqrt{\eta} \operatorname{diag}\left(\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}}\right) \mathbf{G} \mathbf{w}_{i}, b_{i, k}=\mathbf{h}_{\mathrm{d}, k}^{\mathrm{H}} \mathbf{w}_{i} ai,k=η diag(hr,kH)Gwi,bi,k=hd,kHwi,利用:
∣ ( h d , k H + h r , k H Θ H G ) w i ∣ 2 = ∣ b i , k + η θ H diag ( h r , k H ) G w i ∣ 2 = ∣ b i , k + θ H a i , k ∣ 2 \begin{aligned} \left|\left(\mathbf{h}_{\mathrm{d}, k}^{\mathrm{H}}+\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}} \boldsymbol{\Theta}^{\mathrm{H}} \mathbf{G}\right) \mathbf{w}_{i}\right|^{2} &=\left|b_{i, k}+\sqrt{\eta} \boldsymbol{\theta}^{\mathrm{H}} \operatorname{diag}\left(\mathbf{h}_{\mathrm{r}, k}^{\mathrm{H}}\right) \mathbf{G} \mathbf{w}_{i}\right|^{2} &=\left|b_{i, k}+\boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{i, k}\right|^{2} \end{aligned} ∣∣∣(hd,kH+hr,kHΘHG)wi∣∣∣2=∣∣∣bi,k+η θHdiag(hr,kH)Gwi∣∣∣2=∣∣∣bi,k+θHai,k∣∣∣2 可以将 f 3 u f_{3u} f3u简化为: f 3 ( θ ) = ∑ k = 1 K α ~ k ∣ b k , k + θ H a k , k ∣ 2 ∑ i = 1 K ∣ b i , k + θ H a i , k ∣ 2 + σ 0 2 f_{3}(\boldsymbol{\theta})=\sum_{k=1}^{K} \frac{\tilde{\alpha}_{k}\left|b_{k, k}+\boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{k, k}\right|^{2}}{\sum_{i=1}^{K}\left|b_{i, k}+\boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{i, k}\right|^{2}+\sigma_{0}^{2}} f3(θ)=k=1∑K∑i=1K∣∣∣bi,k+θHai,k∣∣∣2+σ02α~k∣∣∣bk,k+θHak,k∣∣∣2 这样一个分式并不好直接求解, 但显然, 可以用分式规划进行简化, 通过引入辅助变量 ε \varepsilon ε, 同样利用了上面提到的 二次转化, 就可以把原问题改写为: f 3 a ( θ , ε ) = ∑ k = 1 K 2 α ~ k Re { ε k ∗ θ H a k , k + ε k ∗ b k , k } − ∑ k = 1 K ∣ ε k ∣ 2 ( ∑ i = 1 K ∣ b i , k + θ H a i , k ∣ 2 + σ 0 2 ) \begin{aligned} f_{3 a}(\boldsymbol{\theta}, \varepsilon)=& \sum_{k=1}^{K} 2 \sqrt{\tilde{\alpha}_{k}} \operatorname{Re}\left\{\varepsilon_{k}^{*} \boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{k, k}+\varepsilon_{k}^{*} b_{k, k}\right\} \\ &-\sum_{k=1}^{K}\left|\varepsilon_{k}\right|^{2}\left(\sum_{i=1}^{K}\left|b_{i, k}+\boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{i, k}\right|^{2}+\sigma_{0}^{2}\right) \end{aligned} f3a(θ,ε)=k=1∑K2α~k Re{εk∗θHak,k+εk∗bk,k}−k=1∑K∣εk∣2(i=1∑K∣∣∣bi,k+θHai,k∣∣∣2+σ02) 那么固定 θ \boldsymbol{\theta} θ时, ε \varepsilon ε 的最优解就可以通过求导为0 来推出, 为: ε k ∘ = α ~ k ( b k , k + θ H a k , k ) ∑ i = 1 K ∣ b i , k + θ H a i , k ∣ 2 + σ 0 2 \varepsilon_{k}^{\circ}=\frac{\sqrt{\tilde{\alpha}_{k}}\left(b_{k, k}+\boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{k, k}\right)}{\sum_{i=1}^{K}\left|b_{i, k}+\boldsymbol{\theta}^{\mathrm{H}} \mathbf{a}_{i, k}\right|^{2}+\sigma_{0}^{2}} εk∘=∑i=1K∣∣∣bi,k+θHai,k∣∣∣2+σ02α~k (bk,k+θHak,k) 当然啦, 更快捷的方式是正如我们上面二次转化中提到的一样, y m ⋆ = B m − 1 ( x ) a m ( x ) \mathbf{y}_{m}^{\star}=\mathbf{B}_{m}^{-1}(\mathbf{x}) \mathbf{a}_{m}(\mathbf{x}) ym⋆=Bm−1(x)am(x), 那么轻易就可以得出这个结论了。
那么, 固定 ε \varepsilon ε后, 目标函数可以进一步地被写为如下形式 (具体的过程就是“合并同类项”):
f 4 ( θ ) = f 3 a ( θ , ε ∘ ) = − θ H U θ + 2 Re { θ H ν } + C \begin{aligned} f_{4}(\boldsymbol{\theta}) &=f_{3 a}\left(\boldsymbol{\theta}, \boldsymbol{\varepsilon}^{\circ}\right) &=-\boldsymbol{\theta}^{\mathrm{H}} \boldsymbol{U} \boldsymbol{\theta}+2 \operatorname{Re}\left\{\boldsymbol{\theta}^{\mathrm{H}} \boldsymbol{\nu}\right\}+C \end{aligned} f4(θ)=f3a(θ,ε∘)=−θHUθ+2Re{θHν}+C 其中, U = ∑ k = 1 K ∣ ε k ∣ 2 ∑ i = 1 K a i , k a i , k H ν = ∑ k = 1 K ( α ~ k ε k ∗ a k , k − ∣ ε k ∣ 2 ∑ i = 1 K b i , k ∗ a i , k ) C = ∑ k = 1 K ( 2 α ~ k Re { ε k ∗ b k , k } − ∣ ε k ∣ 2 ( σ 0 2 + ∑ i = 1 K ∣ b i , k ∣ 2 ) ) \begin{aligned} \boldsymbol{U} &=\sum_{k=1}^{K}\left|\varepsilon_{k}\right|^{2} \sum_{i=1}^{K} \mathbf{a}_{i, k} \mathbf{a}_{i, k}^{\mathrm{H}} \\ \boldsymbol{\nu} &=\sum_{k=1}^{K}\left(\sqrt{\tilde{\alpha}_{k}} \varepsilon_{k}^{*} \mathbf{a}_{k, k}-\left|\varepsilon_{k}\right|^{2} \sum_{i=1}^{K} b_{i, k}^{*} \mathbf{a}_{i, k}\right) \\ C &=\sum_{k=1}^{K}\left(2 \sqrt{\tilde{\alpha}_{k}} \operatorname{Re}\left\{\varepsilon_{k}^{*} b_{k, k}\right\}-\left|\varepsilon_{k}\right|^{2}\left(\sigma_{0}^{2}+\sum_{i=1}^{K}\left|b_{i, k}\right|^{2}\right)\right) \end{aligned} UνC=k=1∑K∣εk∣2i=1∑Kai,kai,kH=k=1∑K(α~k εk∗ak,k−∣εk∣2i=1∑Kbi,k∗ai,k)=k=1∑K(2α~k Re{εk∗bk,k}−∣εk∣2(σ02+i=1∑K∣bi,k∣2))
当目标函数被改写到这一步后实际上是一个很正常的形式了, 也有多种方法得以求解, 作者在文中也提出了三种算法。 先不谈对 θ \theta θ 使用哪种具体的算法求解, 我们先可以形成整个算法框架如下:
这里值得一提的是, 我们知道对于每一次分式规划的拆分, 这一组变量, 如
ε
\varepsilon
ε 和
θ
\theta
θ, 其实可以进行多次迭代更新来收敛到一个较好的值。 但如果这样的话, 就成了一个大迭代中套了多个小迭代, 复杂度迅速增大。 因此, 作者提出的思路是, 每一组变量自己不做多次迭代, 正如框图内所示。 比如做完 step 3.2 后, 本可以继续再优化
ε
\varepsilon
ε 然后又优化
θ
\theta
θ… 然而无论如何, Algorithm 1 无疑是收敛的, 因为其目标函数始终可以确保单调下降。
后续对 θ \theta θ 的优化的具体算法中, 作者使用到了经典的ADMM方法来处理非凸约束。 因此,这一部分放到下篇博客中再进行详述。