自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Matching datasets and tokenizers
目录
Best practices
- Best practices
- Step 1: Preprocessing
- Step 2: Post-processing
- Continuous human quality control
- Word2Vec tokenization
- Tokenizer.ipynb代码
- 使用gensim训练word2vec模型
- Case 0: Words in the dataset and the dictionary
- Case 1: Words not in the dataset or the dictionary
- 星空智能对话机器人系列博客
Raffel等人(