您当前的位置: 首页 >  机器人

段智华

暂无认证

  • 3浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 KantaiBERT ByteLevelBPETokenizer

段智华 发布时间:2021-09-19 21:42:03 ,浏览量:3

自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 KantaiBERT ByteLevelBPETokenizer

目录
  • Step 3: Training a tokenizer
  • Step 4: Saving the files to disk
  • Step 5: Loading the trained tokenizer files
  • Step 6: Checking resource constraints: GPU and CUDA
  • 星空智能对话机器人系列博客

Step 3: Training a tokenizer

本文没使用预训练的标记器,如预训练的GPT-2标记器,而是从头开始训练标记器。Hugging Face的 ByteLevelBPETokenizer()将使用kant.txt进行训练。字节级标记器将字符串或单词分解为子字符串或子单词。

BPETokenizer的两个主要优势:

  • 压缩词表:标记器可以将单词分解为最小的组件,然后合并这些小组件转换为统计上有趣的组件。例如 "smaller"及 smallest"可以转换为 “small,” “er,”
关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.1051s