【文献阅读】Learning to Demodulate from Few Pilots via Offline and Online Meta-Learning

1 引言
2 介绍
- 2.1 Meta-learning
- 2.2 创新点
- 2.3 发展现状
3 模型
- 3.1 符号总结
- 3.2 线下训练模型
- 3.3 线下训练算法
- 3.4 基于通用点估计的元学习技术
- 3.5 线上模型
- 3.6 线上训练算法
- 3.7 综合在线学习和导频数量选择
4 实验分析
5 疑问和思考

1 引言

论文地址源码地址提出了Meta-learning元学习来解决由于导频的数量通常不足以获得准确的信道估计，使用元学习能够快速适应不同的信道。作者提出了线上和线下的解决方法，在线上提出了一种集成的在线元学习和自适应导频数量选择方案元学习方案多种

模型无关元学习(Model-Agnostic Meta-Learning,MAML)
一阶MAML(FOMAML)
REPTILE
快速上下文适应VIA元学习(fast Context Adaptation VIA meta-learning ,CAVIA)

2 介绍

元学习的重要应用是获取训练程序，该训练程序可以使用很少的训练样本快速适应新的相关任务，类似于小样本学习。作者同时考虑了线下公式和线上设置。提出的新颖的线上解决方案是将元学习与导频数量的自适应选择相集成。

2.1 Meta-learning

Meta-learning(元学习)目的是利用来自不同但相关的任务的训练和测试数据，以获取适合于所有感兴趣的任务类别的归纳偏差。可以通过选择模型类别（例如通过特征提取器）或训练算法（例如通过模型参数或学习率的初始化）来优化归纳偏差。最重要的应用是小样本学习。元学习的技术分为两种

线下的：元训练数据固定
线上的：来自相关任务的所有先前数据都将以流方式视为元训练数据《Online meta-learning》最新的线下元学习算法
MAML：《Model-agnostic meta-learning for fast adaptation of deep networks》
FOMAML：《Model-agnostic meta-learning for fast adaptation of deep networks》
REPTILE：《On fifirst-order meta-learning algorithms》
CAVIA:《Fast context adaptation via meta-learning》

2.2 创新点

本文的关键思想是将来自其他物联网设备的先前传输中的导频用作元训练数据，以训练能够使解调器快速适应解调器的过程，而这仅需几个导频即可。

讨论了最新的几个元学习算法的相对优点以及对期望最大化（EM）算法的统一解释
验证了元学习相对于传统的基于模型的通信方案以及基于学习的通信方案的优势
对元学习解决方案的性能进行了比较
提出了一种新的线上解决方案，该方案是将元学习与导频数量的自适应选择相集成。并根据接收器的性能和导频数量将提出的解决方案与传统的非自适应解决方案进行比较

2.3 发展现状

《Mind: Model independent neural decoder 》-2019作者训练了一种基于神经网络的解码器，该解码器可以使用通过FOMAML进行的元学习，以最少的导频符号适应新的信道条件。
《RoemNet: Robust meta learning based channel estimation in OFDM systems-2019》-2020作者在FOMAML中通过元学习训练OFDM系统中基于神经网络的信道估计器，在给定导频的情况下获得有效的信道估计。在首次提交论文之后，其他几篇论文已考虑了元学习以进行通信
《From learning to meta-learning: Reduced training overhead and complexity for communication Systems》-2020对通信系统应用程序的元学习的综述
《Deep transfer learning based downlink channel prediction for FDD massive MIMO systems》-2020元学习用于频分双工大规模MIMO信道中的下行链路/上行链路信道转换
《Meta-learning to communicate: Fast end-to-end training for fading channels》-2020《End-to-end fast training of communication links without a channel model via online meta-learning》-2020考虑分别在有和没有信道模型的情况下，对元学习进行物理层的端到端训练
《Deep hypernetwork-based MIMO detection》-2020考虑了一种基于超网络的相关方法，以帮助基于神经网络的MIMO检测

3 模型

在这里插入图片描述

3.1 符号总结

k k k 第k个元训练设备 s k s_k sk 设备发送的复数信号 y k y_k yk接收到的复数信号 S S S 表示调制方案确定的所有星座符号的集合 h k h_k hk表示是从设备k到基站的复数信道增益 z k z_k zk表示白高斯噪声 x k x_k xk是由条件分布定义的一般随机变换的输出.这种有条件的分布解决了发射机的非理想因素，例如相位噪声，I / Q不平衡以及物联网设备的放大器特性 δ k \delta_k δk相位不平衡因子 ∈ k \in _k ∈k振幅不平衡因子 p ( s ∣ y , ϕ ) p(s|y,\phi) p(s∣y,ϕ)定义解调器的条件概率分布，作者说这是解调器的参数模型，其中 ϕ \phi ϕ是一个可训练参数 D = { D ( k ) } k = 1 , . . , K D =\{D(k)\}_{k=1,..,K} D={D(k)}k=1,..,K表示元训练数据集,其中 D k = { ( s k ( n ) , y k ( n ) ) } ， n = 1 , . . . , N D_k=\{(s_k^{(n)},y_k^{(n)})\}，n=1,...,N Dk={(sk(n),yk(n))}，n=1,...,N，其中 ( s k ( n ) , y k ( n ) ) (s_k^{(n)},y_k^{(n)}) (sk(n),yk(n))表示第k个元训练设备的第n个接收信号对 D T = { ( s ( n ) , y ( n ) ) } ， n = 1 , . . . , P D_T =\{ (s^{(n)},y^{(n)})\}，n=1,...,P DT={(s(n),y(n))}，n=1,...,P表示发送端和接收端基站的P个导频符号对组合

3.2 线下训练模型

将解调作为一个分类任务，将解调器的设置为L层的多层伸进网络，最后的一层是Softmax的非线性层，解调可以用公式表示为在这里插入图片描述

其中 f ϕ ( t ) ( x ) = σ ( W ( l ) x ( l ) + b ( l ) ) f_{\phi(t)}(x)= \sigma (W^{(l)}x^{(l)}+b^{(l)}) fϕ(t)(x)=σ(W(l)x(l)+b(l))表示第l层的激活函数，其中 ϕ ( t ) = ( W ( l ) , b ( l ) ) \phi(t)= (W^{(l)},b^{(l)}) ϕ(t)=(W(l),b(l))是权重矩阵和偏置向量。其中 [ ∗ ] s [*]_s [∗]s表示关于s的元素其中 ϕ = ϕ ( l ) l = 1 , . . , L − 1 \phi = {\phi^{(l)}}_{l=1,..,L-1} ϕ=ϕ(l)l=1,..,L−1表示参数的向量 σ ( ∗ ) \sigma (*) σ(∗)表示非线性函数，可以是ReLU或者双曲正切函数 y 表示为接收到的信号的实部和虚部的二维向量

3.3 线下训练算法

（1）损失函数标准互熵损失函数定义为解调器参数向量ϕ的函数在这里插入图片描述

（2）联合训练为了实验，需要一个Benchmark。使用元训练数据D和导频的训练数据DT进行模型p（s | y，ϕ）联合训练。联合训练将从元训练设备和元测试设备接收的所有导频集中在一起，并使用SGD对该模型的损失函数进行优化。基于规则迭代去更新参数向量ϕ 在这里插入图片描述

（3）元学习模型在这里插入图片描述

θ \theta θ是一个共享参数，会影响上下文变量 ϕ \phi ϕ的先验分布。根据元训练数据D使用最大期望(EM)算法估计得到 ϕ \phi ϕ是一个上下文变量，根据元测试数据 D T D_T DT得到 EM算法是解决存在潜在变量（此处为上下文变量 ϕ \phi ϕ）的最大似然估计问题的标准工具，EM使来自元训练数据集D中所有数据集Dk的数据对（s，y）上的边缘似然性的总和最大化。公式如下在这里插入图片描述当在给定新的观测信号y和元测试设备的导频DT的情况下推断数据符号s时，可以认为获得的参数θ是固定的。最后一步将理想地产生解调器

给定元测试设备的训练数据，对上下文变量的后验分布p（φ|θ，DT）取平均值。公式（7）中的后验p（φ|θ，Dk）和公式（8）中的后验p（φ|θ，DT）的计算通常是不可行的。因此，最新的元学习技术通过采用潜在上下文变量φ的点估计或对其后验分布的直接逼近来近似此原则解决方案。

3.4 基于通用点估计的元学习技术

（1）MAML算法过程（看不懂）在这里插入图片描述

（2）FOMAML （3）REPTILE （4）CAVIA

3.5 线上模型

在这里插入图片描述

在每个slot中，BS从新设备接收信号分组，从分组中得到集合 D t = { ( s t ( n ) , y t ( n ) ) , n = 1 , . . , N t } D_t=\{(s_t^{(n)},y_t^{(n)}),n=1,..,N_t \} Dt={(st(n),yt(n)),n=1,..,Nt}其中 s t ( n ) s_t^{(n)} st(n)表示n个导频的发送信号， y t ( n ) y_t^{(n)} yt(n)表示n个导频的接收信号。在每个slot t中，BS具有来自先前活动设备的元训练数据携带符号 D t − 1 ＝ { D t } t ′ = 1 t − 1 D^{t-1}＝ \{D_t\}^{t-1}_{t'=1} Dt−1＝{Dt}t′=1t−1以及来自当前活动设备的元测试数据 D t D_t Dt。最终目标是通过使用元训练数据 D t − 1 D_{t-1} Dt−1来训练解调器 p （ s ∣ y ， ϕ t ） p（s | y，ϕ_t） p（s∣y，ϕt），该解调器在对集合Dt中的接收导频进行适配之后，对有效载荷数据 D t d a t a D_t^{data} Dtdata表现良好

3.6 线上训练算法

在线学习者的目标是确定一个模型参数向量标准的在线学习算法是“Follow the leader”（FTL），该算法确定对先前数据 D t − 1 D^{t-1} Dt−1表现最佳的参数ϕt。对于当前的问题，FTL通过解决问题来确定slot t处的参数ϕt 在这里插入图片描述

解调器 p ( s ∣ y , ϕ , θ ) p(s|y,\phi,\theta) p(s∣y,ϕ,θ)由共享参数，上下文向量所定义，在线上训练中，在每个slot t 中，提出了用元训练数据 D t − 1 D^{t-1} Dt−1去估计共享参数 θ t \theta _t θt，用 D t D_t Dt估计 ϕ t \phi _t ϕt。以下算法通过解决问题来确定共享参数 θ t \theta _t θt 在这里插入图片描述

算法是在这里插入图片描述

3.7 综合在线学习和导频数量选择

为了进一步减少导频开销，我们现在考虑根据前一个slot中元学习的解调器的性能来调整每个slot t中发送的导频符号数目的可能性。通过使用来自不同设备的信息而工作，而无需对时间相关性做任何假设，从而针对单个设备调整导频数量。通过尝试p=1,…,Pt的不同值，BS确定p≤Pt的最小值，以使集合中的数据的解调满足某些可靠性要求。如果找到这样的p值，则BS将下一个slot的导频数分配为 P t + 1 P_{t + 1} Pt+1＝ p。否则，将 P t + 1 P_{t + 1} Pt+1设置为最大值P。算法4中总结了使用该导频号选择方案的整个在线元学习过程。在这里插入图片描述

图5中找到了所提出的自适应导频号选择策略的图示。在这里插入图片描述

4 实验分析

略。。。

5 疑问和思考

文章太晦涩，完全是一堵公式墙。只能读个大概，主要本人对元学习也是从这篇论文开始入门的。会逐渐加强学习来理解此论文。
作者开源了Pytorch实现的代码，希望通过阅读一下源码来理解作者如何实现解调的。

【文献阅读】Learning to Demodulate from Few Pilots via Offline and Online Meta-Learning

[ 申请 ]友情链接：