NLP自然语言处理系列- week6-文本数据增强(6)(PGN )
少样本问题是自然语言处理NLP领域经常面临的问题,在医疗、金融、法律等领域通常缺乏高质量的标注语料,因此需使用数据增强技术,几种常用的数据增强的技术:
-
单词替换:获取每个词在词向量空间中语义最接近的词,替换原始样本中的词,得 到新的样本。替换样本中的核心词汇可能会导致核心语义的缺失,解决方案:
- 通过tfidf 权重进行排序,替换排序靠后的词;
- 通过无监督的方式获取样本的主题词,替换不属于主题词的词汇。
-
回译:可以使用机器翻译模型,将中文文本翻译成一种外文,然后再翻译回中文,由此可以得到语义近似的新样本。
-
Bootstrapping:自助式生成样本。训练一个文本生成模型,利用训练好的模型为原始样本中的数据生成新的source,作为新的样本继续训练。
目录- 回译
- 单词替换
- Bootstrapping
翻译原文件到新文件,将文本从中文翻译为英文,再将英文翻译为中文 。
def