您当前的位置: 首页 >  自然语言处理

IT之一小佬

暂无认证

  • 0浏览

    0关注

    1192博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

自然语言处理中文本的token和tokenization

IT之一小佬 发布时间:2021-03-20 22:19:07 ,浏览量:0

自然语言处理中文本的token和tokenization 1.1 概念和工具的介绍

tokenization就是通常所说的分词,分出的每一个词语我们把它称为token

常见的分词工具很多,比如:

  • jieba分词:https://github.com/fxsjy/jieba

  • 清华大学的分词工具THULAC:https://github.com/thunlp/THULAC-Python

1.2 中英文分词的方法
  • 把句子转化为词语

    • 比如:我爱深度学习 可以分为[我,爱, 深度学习]

  • 把句子转化为单个字

    • 比如:我爱深度学习的token是[我,爱,深,度,学,习]

关注
打赏
1665675218
查看更多评论
立即登录/注册

微信扫码登录

0.0412s