您当前的位置: 首页 >  自然语言处理

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

NLP自然语言处理系列- week6-文本数据增强(6)(PGN )

段智华 发布时间:2021-02-22 20:12:45 ,浏览量:0

NLP自然语言处理系列- week6-文本数据增强(6)(PGN )

少样本问题是自然语言处理NLP领域经常面临的问题,在医疗、金融、法律等领域通常缺乏高质量的标注语料,因此需使用数据增强技术,几种常用的数据增强的技术:

  • 单词替换:获取每个词在词向量空间中语义最接近的词,替换原始样本中的词,得 到新的样本。替换样本中的核心词汇可能会导致核心语义的缺失,解决方案:

    • 通过tfidf 权重进行排序,替换排序靠后的词;
    • 通过无监督的方式获取样本的主题词,替换不属于主题词的词汇。
  • 回译:可以使用机器翻译模型,将中文文本翻译成一种外文,然后再翻译回中文,由此可以得到语义近似的新样本。

  • Bootstrapping:自助式生成样本。训练一个文本生成模型,利用训练好的模型为原始样本中的数据生成新的source,作为新的样本继续训练。

    目录
    • 回译
    • 单词替换
    • Bootstrapping

回译

翻译原文件到新文件,将文本从中文翻译为英文,再将英文翻译为中文 。


def 
关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0413s