自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 KantaiBERT ByteLevelBPETokenizer
目录
Step 3: Training a tokenizer
- Step 3: Training a tokenizer
- Step 4: Saving the files to disk
- Step 5: Loading the trained tokenizer files
- Step 6: Checking resource constraints: GPU and CUDA
- 星空智能对话机器人系列博客
本文没使用预训练的标记器,如预训练的GPT-2标记器,而是从头开始训练标记器。Hugging Face的 ByteLevelBPETokenizer()将使用kant.txt进行训练。字节级标记器将字符串或单词分解为子字符串或子单词。
BPETokenizer的两个主要优势:
- 压缩词表:标记器可以将单词分解为最小的组件,然后合并这些小组件转换为统计上有趣的组件。例如 "smaller"及 smallest"可以转换为 “small,” “er,”