Python统计中文词出现频率个数_知识百科

Python统计中文词出现频率个数

分类：知识百科日期：2025-03-08 点击：0

使用是一件非常简单的事情，但是需要注意的是，要统计出现的频率，需要先对文本进行分词处理，这样才能准确统计出现的次数。

需要准备好要统计的文本，可以是一段文本，也可以是一个文件，比如txt文件，但是要注意，文本中不能有标点符号，否则会影响统计结果。

要使用，需要安装一个第三方库，比如jieba，这是一个中文分词库，可以把文本中的中文词语分割出来，从而统计出现的频率。

import jieba

# 读取文本
text = open('text.txt', 'r', encoding='utf-8').read()

# 使用jieba进行分词
words = jieba.lcut(text)

# 统计词频
frequency = {}
for word in words:
    if word in frequency:
        frequency[word] += 1
    else:
        frequency[word] = 1

# 打印结果
for word, count in frequency.items():
    print(word, count)

统计完成后，可以把结果保存到文件中，比如csv文件，方便以后使用。

import csv

# 写入csv文件
with open('frequency.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    for word, count in frequency.items():
        writer.writerow([word, count])

Python统计中文词出现频率个数

版权声明

相关素材

热门文章

Python Django访问static静态文件的实现方法和配置指南

Spring Boot中如何使用Jackson进行数据处理和转换

获取给定Pandas数据框架中特定行的方法和示例代码

Python中type()函数的作用和用法详解

Python中list、set和tuple的区别和用途简介

解决MySQL报2006错误的错误处理方法（数据过大）

Python中定义二维数组矩阵的方法和示例代码

Pandas DataFrame的pivot()和unstack()函数实现行列转换

Java中输入多行字符串或多个整数的方法和技巧分享

在HTML中使用JavaScript自定义字符串格式化的实现方法

随机推荐

会员登录