pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。其中LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。
2.模块安装 2.1通过源代码安装- LTP项目文件、模型文件下载
官网目前LTP模型当前版本 - 3.4.0,如要下载需要进官网(官网链接)下载。LTP项目文件最新版本LTP4 v4.1.5.post2, 下载地址:https://github.com/HIT-SCIR/ltp/releases。
项目文件和模型文件配置
(1)新建一个文件夹,如D:\LTP
(2)将模型文件解压后的 ltp_data 文件夹放入新建的LTP文件夹
(3)将项目文件解压到LTP文件夹中。
例如:
注意事项
- 安装编译环境,下载并安装 Visual C++ 2015
源码编译安装,源码安装方式需要C/C++编译环境,建议安装Microsoft Visual C++ 15.0(安装包)。
- 下载源代码
从github下载pyltp源代码或者从pypi下载源码:
- https://pypi.org/project/pyltp/#files
- https://github.com/HIT-SCIR/pyltp
- 在pyltp文件夹中有一个名为setup.py的python程序,打开cmd,切换到setup.py程序所在的目录下;
- 执行命令:python setup.py build;
- 执行命令:python setup.py install。
目前pyltp最新本版为0.2.1,但是不能直接pip install pyltp安装,会报错。需要下载whl安装,whl下载地址为:https://pypi.tuna.tsinghua.edu.cn/simple/pyltp-binary/。
python3.6版本安装命令如下:
pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl
注意安装之前一定要在cmd上切换到whl文件所在文件夹。用cd命令实现。
3.安装成功测试from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看?我就趴窗口上看呗!') # 分句
print ('\n'.join(sents))
元芳你怎么看? 我就趴窗口上看呗!
参考资料
[1] https://www.jianshu.com/p/f7b4ea21e85a
[2]https://blog.csdn.net/weixin_40899194/article/details/79702468