安装和使用pyltp

作者：代码星球 发布时间：2023-04-17 阅读：0

什么是pyltp:

pyltp 是LTP的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

安装 pyltp

测试环境：系统win10 64位， python3.6.5

官方安装是直接使用pip install pyltp命令安装，但是经过多次反复实践，到处是坑，最后放弃了

轮子文件安装：1.下载pyltp-0.2.1-cp36-cp36m-win_amd64.whl文件,百度云，提取码：1gki

　　　　　　　2.切换到下载文件的目录,执行 pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

使用 pyltp

使用前请先下载完整模型，百度云,提取码：7qk2，当前模型版本 - 3.4.0

请注意编码：

　　pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

　　如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

　　由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

分句：

使用 pyltp 进行分句示例如下：

'''
使用pyltp进行分句
'''


from pyltp import SentenceSplitter

sents = SentenceSplitter.split('元芳你怎么看？我就趴在窗口上看呗！元芳你怎么这样子了？我哪样子了？')
# print(sents)
# print('
'.join(sents))
sents = '|'.join(sents)
print(sents)

运行结果如下：　

元芳你怎么看？|我就趴在窗口上看呗！|元芳你怎么这样子了？|我哪样子了？

分词：

使用 pyltp 进行分词示例如下：

"""
使用pyltp进行分词
"""

import os
from pyltp import Segmentor


LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
words = segmentor.segment('元芳你怎么看')  # 分词
print(type(words))
print(type('|'.join(words)))
print('|'.join(words))
segmentor.release()   # 释放模型

运行结果如下：

<class 'pyltp.VectorOfString'>
<class 'str'>
元芳|你|怎么|看

　　words = segmentor.segment('元芳你怎么看') 的返回值类型是native的VectorOfString类型，可以使用list转换成Python的列表类型　

使用分词外部词典：

　　　pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件（plain text），每行指定一个词，编码同样须为 UTF-8，样例如下所示

　　苯并芘
　　亚硝酸盐

示例如下：

'''
使用分词外部词典
'''

import os
from pyltp import Segmentor

LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, 'plain.txt')  # 加载模型，第二个参数是外部词典文件路径
words = segmentor.segment('亚硝酸盐是一种化学物质')
print('|'.join(words))
segmentor.release()

　运行结果：

[INFO] 2019-05-10 15:18:05 loaded 2 lexicon entries
亚硝酸盐|是|一|种|化学|物质

词性标注：

使用 pyltp 进行词性标注

'''
使用 pyltp 进行词性标注
'''

import os
from pyltp import Postagger

LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 分词模型路径， 模型名称为'pos.model'

postagger = Postagger()   # 初始化实例

postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']   # words是分词模块的返回值，也支持Python原生list,此处使用list

postags = postagger.postag(words)   # 词性标注

print('|'.join(postags))

postagger.release()  # 释放模型

　运行结果：　　

nh|r|r|v

　LTP 使用 863 词性标注集，详细请参考词性标准集。如下图所示

命名实体识别

使用 pyltp 进行命名实体识别示例如下

'''
命名实体识别
'''

import os
from pyltp import NamedEntityRecognizer

LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 分词模型路径， 模型名称为'c.model'

recognizer = NamedEntityRecognizer()   # 初始化实例

recognizer.load(ner_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']   # 分词模块的返回值
postags = ['nh', 'r', 'r', 'v']   # 词性标注的返回值

netags = recognizer.recognize(words, postags)  # 命名实体识别

print(netags)
print(list(netags))

recognizer.release()  # 释放模型

　其中，words 和 postags 分别为分词和词性标注的结果。同样支持Python原生的list类型。　

运行结果

<pyltp.VectorOfString object at 0x000002B3A798DBD0>
['S-Nh', 'O', 'O', 'O']

LTP 采用 BIESO 标注体系。B 表示实体开始词，I表示实体中间词，E表示实体结束词，S表示单独成实体，O表示不构成命名实体。

LTP 提供的命名实体类型为:人名（Nh）、地名（Ns）、机构名（Ni）。

B、I、E、S位置标签和实体类型标签之间用一个横线 - 相连；O标签后没有类型标签。

详细标注请参考命名实体识别标注集。

NE识别模块的标注结果采用O-S-B-I-E标注形式，其含义为

标记	含义
O	这个词不是NE
S	这个词单独构成一个NE
B	这个词为一个NE的开始
I	这个词为一个NE的中间
E	这个词位一个NE的结尾

LTP中的NE 模块识别三种NE，分别如下：

标记	含义
Nh	人名
Ni	机构名
Ns	地名

依存句法分析

使用 pyltp 进行依存句法分析示例如下

"""
依存句法分析
"""

import os
from pyltp import Parser

LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 分词模型路径， 模型名称为'parser.model'

parser = Parser()   # 初始化实例

parser.load(par_model_path)   # 加载模型

words = ['元芳', '你', '怎么', '看']

postags = ['nh', 'r', 'r', 'v']

arcs = parser.parse(words, postags)   # 句法分析

print('	'.join('%d: %s' %(arc.head, arc.relation) for arc in arcs))

parser.release()   # 释放模型

　其中，words 和 postags 分别为分词和词性标注的结果。同样支持Python原生的list类型。　

运行结果

4: SBV	4: SBV	4: ADV	0: HED

arc.head 表示依存弧的父节点词的索引。ROOT节点的索引是0，第一个词开始的索引依次为1、2、3…

arc.relation 表示依存弧的关系。

arc.head 表示依存弧的父节点词的索引，arc.relation 表示依存弧的关系。

标注集请参考依存句法关系

关系类型	Tag	Description	Example
主谓关系	SBV	subject-verb	我送她一束花 (我 <– 送)
动宾关系	VOB	直接宾语，verb-object	我送她一束花 (送 –> 花)
间宾关系	IOB	间接宾语，indirect-object	我送她一束花 (送 –> 她)
前置宾语	FOB	前置宾语，fronting-object	他什么书都读 (书 <– 读)
兼语	DBL	double	他请我吃饭 (请 –> 我)
定中关系	ATT	attribute	红苹果 (红 <– 苹果)
状中结构	ADV	adverbial	非常美丽 (非常 <– 美丽)
动补结构	CMP	complement	做完了作业 (做 –> 完)
并列关系	COO	coordinate	大山和大海 (大山 –> 大海)
介宾关系	POB	preposition-object	在贸易区内 (在 –> 内)
左附加关系	LAD	left adjunct	大山和大海 (和 <– 大海)
右附加关系	RAD	right adjunct	孩子们 (孩子 –> 们)
独立结构	IS	independent structure	两个单句在结构上彼此独立
核心关系	HED	head	指整个句子的核心

语义角色标注

使用 pyltp 进行语义角色标注示例如下

'''
语义角色标注
'''


import os
from pyltp import SementicRoleLabeller

from demo6 import parser

LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径
srl_model_path = os.path.join(LTP_DATA_DIR, 'pisrl_win.model')  # 分词模型路径， 模型名称为'pisrl_win.model'

labeller = SementicRoleLabeller()  # 初始化实例
labeller.load(srl_model_path)   # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']

arcs = parser()
print(arcs)

　　特别注意，windows系统此处用的模型是pirl_win.model

运行结果

[dynet] random seed: 2222491344
[dynet] allocating memory: 2000MB
[dynet] memory allocation done.
4: SBV	4: SBV	4: ADV	0: HED
<pyltp.VectorOfParseResult object at 0x0000026B5902DC30>
3 A0:(1,1)ADV:(2,2)

第一个词开始的索引依次为0、1、2…

返回结果 roles 是关于多个谓词的语义角色分析的结果。由于一句话中可能不含有语义角色，所以结果可能为空。

role.index 代表谓词的索引， role.arguments 代表关于该谓词的若干语义角色。

arg.name 表示语义角色类型，arg.range.start 表示该语义角色起始词位置的索引，arg.range.end 表示该语义角色结束词位置的索引。

例如上面的例子，由于结果输出一行，所以“元芳你怎么看”有一组语义角色。其谓词索引为3，即“看”。这个谓词有三个语义角色，范围分别是(0,0)即“元芳”，(1,1)即“你”，(2,2)即“怎么”，类型分别是A0、A0、ADV。

arg.name 表示语义角色关系，arg.range.start 表示起始词位置，arg.range.end 表示结束位置。

标注集请参考语义角色关系。

语义角色类型	说明
ADV	adverbial, default tag ( 附加的，默认标记 )
BNE	beneﬁciary ( 受益人 )
CND	condition ( 条件 )
DIR	direction ( 方向 )
DGR	degree ( 程度 )
EXT	extent ( 扩展 )
FRQ	frequency ( 频率 )
LOC	locative ( 地点 )
MNR	manner ( 方式 )
PRP	purpose or reason ( 目的或原因 )
TMP	temporal ( 时间 )
TPC	topic ( 主题 )
CRD	coordinated arguments ( 并列参数 )
PRD	predicate ( 谓语动词 )
PSR	possessor ( 持有者 )
PSE	possessee ( 被持有 )

完整示例

import os,sys
from pyltp import SentenceSplitter,Segmentor,Postagger,Parser,NamedEntityRecognizer,SementicRoleLabeller

LTP_DATA_DIR = r'E:python_envltpltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

paragraph = '中国进出口银行与中国银行加强合作。中国进出口银行与中国银行加强合作！'

sentence = SentenceSplitter.split(paragraph)[0]  # 分句并取第一句

# 分词
segmentor = Segmentor()   # 初始化
segmentor.load(os.path.join(LTP_DATA_DIR, 'cws.model'))   # 加载模型
words = segmentor.segment(sentence)  # 分词
print(list(words))
print('|'.join(words))

# 词性标注
postagger = Postagger()  # 初始化
postagger.load(os.path.join(LTP_DATA_DIR, 'pos.model'))  # 加载模型
postags = postagger.postag(words)
#postags = postagger.postag(['中国', '进出口', '银行', '与', '中国银行', '加强', '合作', '。'])
print(list(postags))

# 依存句法分析
parser = Parser()
parser.load(os.path.join(LTP_DATA_DIR, 'parser.model'))
arcs = parser.parse(words, postags)
print('	'.join('%d:%s' %(arc.head, arc.relation) for arc in arcs))


# 命名实体识别
recognizer = NamedEntityRecognizer()  # 实例化
recognizer.load(os.path.join(LTP_DATA_DIR, 'ner.model'))
netags = recognizer.recognize(words, postags)
print(list(netags))


# 语义角色标注
labeller = SementicRoleLabeller()
labeller.load(os.path.join(LTP_DATA_DIR, 'pisrl_win.model'))
roles = labeller.label(words, postags, arcs)
for role in roles:
    print(role.index, "".join(
            ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))

segmentor.release()  # 释放
postagger.release()
parser.release()
recognizer.release()
labeller.release()

参考链接：https://pyltp.readthedocs.io/zh_CN/latest/

　　　　　https://github.com/HIT-SCIR/pyltp

本文标签：安装使用 pyltp

版权说明：

安装和使用pyltp

什么是pyltp:

pyltp 是LTP的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

安装 pyltp

使用 pyltp

使用前请先下载完整模型，百度云,提取码：7qk2，当前模型版本 - 3.4.0

请注意编码：

pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

分句：

分词：

使用 pyltp 进行分词示例如下：

运行结果如下：

使用分词外部词典：

示例如下：

运行结果：

词性标注：

使用 pyltp 进行词性标注

运行结果：

命名实体识别

运行结果

依存句法分析

运行结果

语义角色标注

运行结果

完整示例

你可能感兴趣的

　　pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

　　如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

　　由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

　运行结果：

　运行结果：