Python中文分词 jieba | 汪小白

Python中文分词 jieba

发表于 2020-06-04| 更新于 2020-06-09|编程 · 技术

字数总计:589|阅读时长: 1 分钟

|阅读量:

序幕

Python有个模块可以将一段话中的关键词提取出来，支持中文简体，繁体分词，还支持自定义词库。 –它就是Python中文分词组件jieba

jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。

精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析

全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余数据

搜索引擎模式：在精确模式的基础上，对长词再次进行切分

jieba

安装
因为 jieba 是一个第三方库，所有需要我们在本地进行安装。

Windows 下使用命令安装：在联网状态下，在命令行下输入 pip install jieba 进行安装，安装完成后会提示安装成功

在 pyCharm 中安装：打开 settings，搜索 Project Interpreter，在右边的窗口选择 + 号，点击后在搜索框搜索 jieba，点击安装即可

三种模式使用

import jieba
seg_str = '好好学习，天天向上。'

print("/".join(jieba.lcut(seg_str)))    # 精简模式，返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式，使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式

jieba.analyse的使用

import jieba.analyse

data = 'Python是一种跨平台的计算机程序设计语言。 Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。'

# 提取标签(关键词，权重) topK(权重前五)  withWeight(使用权重)
for keyword,weight in jieba.analyse.extract_tags(data,withWeight=True,topK=5):
	print('%s-%s'%(keyword,weight))

总结

jieba特点

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

文章作者: 汪小白

文章链接: http://www.sirxs.cn/2020/06/04/Blog/jieba/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自汪小白！

ღ喜欢记得五星好评哦~

相关推荐

通过高德API和Python3实现通过IP获取地区

使用ShareLatex和Python3打造属于自己的特色简历

（在线客服系统）Python3.7+Flask1.1.1结合Socket.io与Vue2.9.6联合实现在线客服系统

使用python3.7实现钉钉机器人群发

（贝宝模拟实现跨境支付）使用python3.7+Vue.js2.0+Django2.0.4实现Paypal模拟跨境支付功能

评论

本地搜索

由 hexo-generator-search 提供支持