这两天在调研MIMO预编码算法文献的时候,恰巧看到了一篇这篇paper: A Leakage-Based Precoding Scheme for Downlink Multi-User MIMO Channels 解开了我之前对广义瑞丽熵最优解的证明疑惑。 便写这篇博客来记录一下。
问题传统的多用户MIMO预编码,往往以速率, 也即SINR的函数为目标,SINR可写为: SINR i = ∥ H i w i ∥ 2 M i σ i 2 + ∑ k = 1 , k ≠ i K ∥ H i w k ∥ 2 \operatorname{SINR}_{i}=\frac{\left\|\mathbf{H}_{i} \mathbf{w}_{i}\right\|^{2}}{M_{i} \sigma_{i}^{2}+\sum_{k=1, k \neq i}^{K}\left\|\mathbf{H}_{i} \mathbf{w}_{k}\right\|^{2}} SINRi=Miσi2+∑k=1,k=iK∥Hiwk∥2∥Hiwi∥2 此时我们发现, 分子中包含第 i i i个用户的预编码 w i w_i wi,而分母包含了其余 K − 1 K-1 K−1个用户的预编码,属于待优化的多变量的高度耦合,也因此加大了设计难度。 在本文中,作者则考虑了如下指标, SLNR, L则是Leakage的意思, 如下: S L N R i = ∥ H i w i ∥ 2 M i σ i 2 + ∑ k = 1 , k ≠ i K ∥ H k w i ∥ 2 \mathrm{SLNR}_{i}=\frac{\left\|\mathbf{H}_{i} \mathbf{w}_{i}\right\|^{2}}{M_{i} \sigma_{i}^{2}+\sum_{k=1, k \neq i}^{K}\left\|\mathbf{H}_{k} \mathbf{w}_{i}\right\|^{2}} SLNRi=Miσi2+∑k=1,k=iK∥Hkwi∥2∥Hiwi∥2 分子,视为期望的信号能量, 而分母,则是第 i i i个用户泄露到其他用户处的能量。通过最大化SLNR,无疑就是在尽可能增大信号能量的情况下减小对其他用户的干扰。而相比于SINR, 其优势也显而易见:SLNR中只涉及第 i i i个用户自己的预编码矩阵,而不再有多变量的耦合问题。
不妨设 ∥ w i ∥ = 1 \|w_i\|=1 ∥wi∥=1, SLNR可以化为: S L N R i = w i H H i H H i w i M i σ i 2 + ∑ k = 1 , k ≠ i K ∥ H k w i ∥ 2 = w i H H i H H i w i w i H ( M i σ i 2 I + H ~ i H H ~ i ) w i , (1) \mathrm{SLNR}_{i}=\frac{\mathbf{w}_i^H\mathbf{H}_i^H\mathbf{H}_i\mathbf{w}_i}{M_{i} \sigma_{i}^{2}+\sum_{k=1, k \neq i}^{K}\left\|\mathbf{H}_{k} \mathbf{w}_{i}\right\|^{2}} = \frac{\mathbf{w}_i^H\mathbf{H}_i^H\mathbf{H}_i\mathbf{w}_i}{\mathbf{w}_i^H(M_{i} \sigma_{i}^{2} \mathbf{I}+\tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i})\mathbf{w}_i},\tag{1} SLNRi=Miσi2+∑k=1,k=iK∥Hkwi∥2wiHHiHHiwi=wiH(Miσi2I+H~iHH~i)wiwiHHiHHiwi,(1) 其中, H ~ i = [ H 1 ⋯ H i − 1 H i + 1 ⋯ H K ] T \tilde{\mathbf{H}}_{i}=\left[\mathbf{H}_{1} \cdots \mathbf{H}_{i-1} \mathbf{H}_{i+1} \cdots \mathbf{H}_{K}\right]^{T} H~i=[H1⋯Hi−1Hi+1⋯HK]T 代表除去了 H i \mathbf{H}_i Hi之后的联合信道矩阵。由(1)可知, SLNR实质就是广义瑞丽熵的形式,因此 w i \mathbf{w}_i wi为最大广义特征向量时取到最大值。
矩阵形式一直困扰我的问题是广义瑞丽熵的矩阵形式。如下,当我们将每个用户拓展为多流场景后,SLNR变为: S L N R i = ∥ H i W i ∥ F 2 M i σ i 2 + Tr ( W i H H ~ i H H ~ i W i ) = Tr ( W i H H i H H i W i ) Tr [ ( W i H ( M i σ i 2 I + H ~ i H H ~ i ) W i ] \begin{aligned} \mathbf{S L N R}_{i} &=\frac{\left\|\mathbf{H}_{i} \mathbf{W}_{i}\right\|_{F}^{2}}{M_{i} \sigma_{i}^{2}+\operatorname{Tr}\left(\mathbf{W}_{i}^{H} \tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i} \mathbf{W}_{i}\right)} \\ &=\frac{\operatorname{Tr}\left(\mathbf{W}_{i}^{H} \mathbf{H}_{i}^{H} \mathbf{H}_{i} \mathbf{W}_{i}\right)}{\operatorname{Tr}\left[\left(\mathbf{W}_{i}^{H}\left(M_{i} \sigma_{i}^{2} \mathbf{I}+\tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i}\right) \mathbf{W}_{i}\right]\right.} \end{aligned} SLNRi=Miσi2+Tr(WiHH~iHH~iWi)∥HiWi∥F2=Tr[(WiH(Miσi2I+H~iHH~i)Wi]Tr(WiHHiHHiWi) 这里假定了有 Tr ( W i H W i ) = 1 \operatorname{Tr}\left(\mathbf{W}_{i}^{H} \mathbf{W}_{i}\right)=1 Tr(WiHWi)=1。 如何求解最优的 W i \mathbf{W}_i Wi呢?
广义特征向量我们首先有广义特征向量的定义如下: 若有: A v = λ B v Av = \lambda Bv Av=λBv 则 v v v称为矩阵束 ( A , B ) (\mathbf{A,B}) (A,B)的广义特征向量, λ \lambda λ为对应的广义特征值。 若 B B B可逆,可知有 B − 1 A v = λ v B^{-1}Av = \lambda v B−1Av=λv,即 v v v同时也是 B − 1 A B^{-1}A B−1A的特征向量。 而当 A , B A, B A,B为共轭对称时,则更有如下结论: 不同广义特征值对应的广义特征向量关于A,B均正交。 即: v i H B v j = v i H A v j = 0 , ∀ i ≠ j v_i^HBv_j=v_i^HAv_j=0, \forall i\neq j viHBvj=viHAvj=0,∀i=j
这个结论有两种证明方法:
证1设 A v 1 = λ 1 B v 1 , A v 2 = λ 2 B v 2 A v_{1}=\lambda_{1} B v_{1}, A v_{2}=\lambda_{2} B v_{2} Av1=λ1Bv1,Av2=λ2Bv2。 有: λ 1 v 2 H B v 1 = v 2 H A v 1 = v 2 H A H v 1 = ( v 1 H A v 2 ) H = ( λ 2 v 1 H B v 2 ) H = λ 2 v 2 H B H v 1 = λ 2 v 2 H B v 1 \lambda_{1} v_{2}^{H} B v_{1}=v_{2}^{H} A v_{1}=v_{2}^{H} A^{H} v_{1}=\left(v_{1}^{H} A v_{2}\right)^{H}=\left(\lambda_{2} v_{1}^{H} B v_{2}\right)^{H}=\lambda_{2} v_{2}^{H} B^{H} v_{1}=\lambda_{2} v_{2}^{H} B v_{1} λ1v2HBv1=v2HAv1=v2HAHv1=(v1HAv2)H=(λ2v1HBv2)H=λ2v2HBHv1=λ2v2HBv1 这里利用了当 A , B A,B A,B为共轭对称时,广义特征值必定为实数的性质,这是因为有: v H A v = λ v H B v v^HAv = \lambda v^HBv vHAv=λvHBv
而由于 λ 1 ≠ λ 2 \lambda_1\neq \lambda_2 λ1=λ2,因此 v 2 H B v 1 = 0 v_{2}^{H} B v_{1}=0 v2HBv1=0, 那么显然 v 2 H A v 1 = 0 v_{2}^{H} A v_{1}=0 v2HAv1=0。
证2另一种是对B的常见处理套路, 由于B共轭对称,因此有 B = L L H B = LL^H B=LLH为其 Cholesky分解。 因此,我们有: A v = λ L L H v ⇒ L − 1 A L − H y = y Av = \lambda LL^Hv\Rightarrow L^{-1}AL^{-H}y=y Av=λLLHv⇒L−1AL−Hy=y 其中 y = L H v y=L^Hv y=LHv, 为矩阵 L − 1 A L − H L^{-1}AL^{-H} L−1AL−H的特征向量。因此, y 1 = L H v 1 y_1=L^Hv_1 y1=LHv1和 y 2 = L H v 2 y_2=L^Hv_2 y2=LHv2为两个不同的特征向量,有: y 1 H y 2 = 0 ⇒ v 1 H L L H v 2 = 0 → v 1 H B v 2 = 0 y_1^Hy_2 = 0 \Rightarrow v_1^HLL^Hv_2 = 0\rightarrow v_1^HBv_2 = 0 y1Hy2=0⇒v1HLLHv2=0→v1HBv2=0 得证。
广义瑞丽熵至此,我们可知, 令 T T T为广义特征向量组成的矩阵(广义特征空间), 我们比能找到有: T i H H i H H i T i = Λ i T i H ( M i σ i 2 I + H ~ i H H ~ i ) T i = I \begin{aligned} \mathbf{T}_{i}^{H} \mathbf{H}_{i}^{H} \mathbf{H}_{i} \mathbf{T}_{i} &=\mathbf{\Lambda}_{i} \\ \mathbf{T}_{i}^{H}\left(M_{i} \sigma_{i}^{2} \mathbf{I}+\tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i}\right) \mathbf{T}_{i} &=\mathbf{I} \end{aligned} TiHHiHHiTiTiH(Miσi2I+H~iHH~i)Ti=Λi=I 这是根据刚刚所述的,当A, B均为共轭对称矩阵时的正交特性。因此两者必定都能得到对角阵,我们可以对 T T T的每一列予以scale,使第二个式子成立。 Λ i \Lambda_i Λi则是普通的对角阵。 由于 T T T满秩,我们可以有 W i = T i X i \mathbf{W}_{i}=\mathbf{T}_{i} \mathbf{X}_{i} Wi=TiXi, 从而将对 W W W的设计变为对 X X X的设计。此时,SLNR可以化为: S L N R = Tr ( X i H Λ i X i ) Tr [ X i H X i ] SLNR = \frac{\operatorname{Tr}\left(\mathbf{X}_{i}^{H} \boldsymbol{\Lambda}_{i} \mathbf{X}_{i}\right)}{\operatorname{Tr}\left[\mathbf{X}_{i}^{H} \mathbf{X}_{i}\right]} SLNR=Tr[XiHXi]Tr(XiHΛiXi) 对于该式,我们令 X X X的奇异值分解为: X i = U i [ Σ i 0 ] V i H \mathbf{X}_{i}=\mathbf{U}_{i}\left[\begin{array}{c} \boldsymbol{\Sigma}_{i} \\ \mathbf{0} \end{array}\right] \mathbf{V}_{i}^{H} Xi=Ui[Σi0]ViH 代入,可得: Tr ( X i H Λ i X i ) Tr [ X i H X i ] = Tr ( [ Σ i 0 ] U i H Λ i U i [ Σ i 0 ] ) ∑ i = 1 m κ i 2 = ∑ i = 1 m κ i 2 ( ∑ j = 1 N λ j ∣ u j i ∣ 2 ) ∑ i = 1 m κ i 2 \frac{\operatorname{Tr}\left(\mathbf{X}_{i}^{H} \boldsymbol{\Lambda}_{i} \mathbf{X}_{i}\right)}{\operatorname{Tr}\left[\mathbf{X}_{i}^{H} \mathbf{X}_{i}\right]}=\frac{\operatorname{Tr}\left(\left[\begin{array}{cc} \boldsymbol{\Sigma}_{i} & \mathbf{0} \end{array}\right] \mathbf{U}_{i}^{H} \boldsymbol{\Lambda}_{i} \mathbf{U}_{i}\left[\begin{array}{c} \boldsymbol{\Sigma}_{i} \\ \mathbf{0} \end{array}\right]\right)}{\sum_{i=1}^{m} \kappa_{i}^{2}}=\frac{\sum_{i=1}^{m} \kappa_{i}^{2}\left(\sum_{j=1}^{N} \lambda_{j}\left|u_{j i}\right|^{2}\right)}{\sum_{i=1}^{m} \kappa_{i}^{2}} Tr[XiHXi]Tr(XiHΛiXi)=∑i=1mκi2Tr([Σi0]UiHΛiUi[Σi0])=∑i=1mκi2∑i=1mκi2(∑j=1Nλj∣uji∣2) κ i \kappa_i κi为 Σ i \Sigma_i Σi的对角元素, λ j \lambda_j λj为 Λ i \Lambda_i Λi的对角元素, 我们可以不妨设为降序排列,这显然可以通过调整 T T T矩阵得到。由 U \mathbf{U} U矩阵的酉性,我们有: 0 ≤ ∣ u j i ∣ 2 ≤ 1 and ∑ j = 1 N ∣ u j i ∣ 2 = 1 0 \leq\left|u_{j i}\right|^{2} \leq 1 \quad \text { and } \quad \sum_{j=1}^{N}\left|u_{j i}\right|^{2}=1 0≤∣uji∣2≤1 and j=1∑N∣uji∣2=1 因此, 要想令分子最大化, 必须有 u j j = 1 and u j i = 0 for j ≠ i and j = 1 , … , m u_{j j}=1 \quad \text { and } \quad u_{j i}=0 \text { for } j \neq i \text { and } j=1, \ldots, m ujj=1 and uji=0 for j=i and j=1,…,m 故而, X X X是一个对角阵! 而 W = T X W=TX W=TX,因此, W W W就是广义特征向量的线性组合。