Python是一种高级编程语言,具有简单易学、易维护、跨平台等优点,因此在数据分析、机器学习、自然语言处理等领域中被广泛使用 。自然语言处理中最基本的就是分词,而jieba库就是Python中最常用的中文分词库之一 。本文将从多个角度介绍Python jieba库分词模式的使用方法 。
1. 安装jieba库

在使用jieba库前,需要先安装 。在命令行中输入以下命令即可:
```
pip install jieba
```
2. 简单分词
使用jieba库最简单的分词方法是cut()函数 。这个函数接受两个参数,第一个参数是要分词的字符串,第二个参数是分词模式 。默认模式是精确模式,可以分出词语来 。代码如下:
```
import jieba
sentence = "我喜欢Python"
words = jieba.cut(sentence)
print("/ ".join(words))
```
输出结果为:
```
我/ 喜欢/ Python
```
其中,/ 表示分词结果的分隔符 。
3. 全模式分词
全模式分词是指将所有可能的词语都分出来,速度较快,但准确性较低 。使用方法如下:
```
import jieba
sentence = "我喜欢Python"
words = jieba.cut(sentence, cut_all=True)
print("/ ".join(words))
```
输出结果为:
```
我/ 喜欢/ Python
```
4. 精确模式分词
精确模式是默认的分词模式,速度较快,准确性较高 。使用方法如下:
```
import jieba
sentence = "我喜欢Python"
words = jieba.cut(sentence, cut_all=False)
print("/ ".join(words))
```
输出结果与简单分词相同:
```
我/ 喜欢/ Python
```
5. 搜索引擎模式分词
搜索引擎模式在精确模式的基础上,对长词再次进行切分,增加了召回率 。使用方法如下:
```
import jieba
sentence = "结过婚的和尚未结过婚的"
words = jieba.cut_for_search(sentence)
print("/ ".join(words))
```
输出结果为:
```
结/ 过婚/ 的/ 和/ 尚未/ 结过婚/ 的
```
6. 添加自定义词典
jieba库默认的分词词典是基于大规模语料库和机器学习算法生成的,但是有些专业术语或者新词汇可能无法被分出 。这时候可以添加自定义词典 。
例如,我们要添加一个新词汇“黑马程序员”,可以在文件中添加:
```
黑马程序员 5 n
```
其中,“5”表示这个词汇的词频,可以自行设定;“n”表示这个词汇的词性,可以参考jieba库中的词性列表 。
然后使用以下代码添加自定义词典:
```
import jieba
jieba.load_userdict("userdict.txt")
sentence = "黑马程序员是一家专业的IT培训机构"
words = jieba.cut(sentence)
print("/ ".join(words))
```
输出结果为:
```
黑马程序员/ 是/ 一家/ 专业/ 的/ IT/ 培训/ 机构
```
7. 关键词提取
除了分词之外,jieba库还可以提取文章的关键词 。关键词提取是指从文章中提取出最能反映文章主题的一些词汇 。jieba库中的关键词提取方法是基于TF-IDF算法的 。
使用方法如下:
```
import jieba.analyse
sentence = "结过婚的和尚未结过婚的"
keywords = jieba.analyse.extract_tags(sentence, topK=2)
print(keywords)
```
输出结果为:
```
['结过婚', '未结']
```
【Python jieba库分词模式怎么用?】其中,“topK”参数表示要提取的关键词数量 。
猜你喜欢
- CentOS7下安装python3.6.8的教程详解
- python如何提取字符串?
- python OrdereDict如何修改键值?
- python实现在目录中查找指定文件的方法
- 在Python中使用next方法操作文件的教程
- 京东出库的订单能取消吗?
- 在Python中用keys方法返回字典键的教程
- 求水库钓鲤鱼商品饵配方
- 求水库钓鲫鱼的饵料配方
- python 如何写4或5的表达式?
