您当前的位置: 首页 >  Python
  • 4浏览

    0关注

    2393博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

一个处女座的程序猿 发布时间:2018-03-14 20:24:14 ,浏览量:4

Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

目录

jieba简介

jieba安装

jieba使用方法

1、进行分词

jieba简介

         jieba应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。

  • 支持三种分词模式:
    • 精确模式,试图将句子最精确地切开,适合文本分析;
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  • 支持繁体分词
  • 支持自定义词典
  • MIT 授权协议

官网github地址:GitHub - fxsjy/jieba: 结巴中文分词

jieba安装
pip install jieba

 

好啦,大功告成,开始使用吧!

jieba使用方法 1、进行分词
import jieba
text='周杰伦(Jay Chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、原创音乐人、演员、导演等,毕业于淡江中学。'
text_cut = jieba.cut(text, cut_all=False)
print(list(text_cut))

['周杰伦', '(', 'Jay', ' ', 'Chou', ')', ',', '1979', '年', '1', '月', '18', '日出', '生于', '台湾省', '新北市', ',', '祖籍', '福建省', '泉州市', '永春县', ',', '中国台湾', '流行乐', '男歌手', '、', '原创', '音乐', '人', '、', '演员', '、', '导演', '等', ',', '毕业', '于', '淡江', '中学', '。']  

 

关注
打赏
1664196048
查看更多评论
立即登录/注册

微信扫码登录

0.0426s