Python如何实现词频统计?Python统计词语出现频率怎么写

词频统计是统计学、概率学和数据分析中经常会使用到的一种分析方法,它的意思就是将一个样式数据中的某些词语或者短语重复的数量给统计出来 。而在python内要实现词频统计的话就可以使用字典对象中的get()方法了,下文会有详细代码示例和解析 。

Python如何实现词频统计?Python统计词语出现频率怎么写


1.首先的话就是需要创建出来一个样本对象,而且这个样本对象需要是列表、元组或者是序列类型 。如果是字符串类型的话就要用jieba模块将其先分词再操作了,然后创建一个空格字典对象即可,代码如下:
a_list = ['西瓜', '苹果', '香蕉', '西瓜', '苹果', '梨子', '梨子', '梨子']a_count = {}2.第二步就是去迭代这个样本对象,在循环之中通过get()方法去获取当前迭代的元素在字典对象中是否存在,如果不存在的话就会创建这个键值对元素并且给值加上1.这是因为get()方法的作用就是获取字典对象中键所对应的值,不存在时会去创建键值对,示例如下:
for a_key in a_list:  a_count[a_key] = a_count.get(a_key, 0) + 13.在迭代完毕之后实际上就已经得到了该样本对象中所有元素的出现次数了,那么这一步要做的就是调用sorted()函数来根据字典值的大小进行休排序 。最后使用print()函数将其给打印出来即可,代码如下所示:
a_count = sorted(a_count.items(), key=lambda x: x[1], reverse=True)a_count = dict(a_count)print('词频统计:\n', a_count)【Python如何实现词频统计?Python统计词语出现频率怎么写】以上就是关于“Python如何实现词频统计?Python统计词语出现频率怎么写”的全部内容了,希望对你有所帮助 。

    猜你喜欢