Python统计中文词出现频率个数

分类:知识百科 日期: 点击:0

使用是一件非常简单的事情,但是需要注意的是,要统计出现的频率,需要先对文本进行分词处理,这样才能准确统计出现的次数。

需要准备好要统计的文本,可以是一段文本,也可以是一个文件,比如txt文件,但是要注意,文本中不能有标点符号,否则会影响统计结果。

要使用,需要安装一个第三方库,比如jieba,这是一个中文分词库,可以把文本中的中文词语分割出来,从而统计出现的频率。

import jieba

# 读取文本
text = open('text.txt', 'r', encoding='utf-8').read()

# 使用jieba进行分词
words = jieba.lcut(text)

# 统计词频
frequency = {}
for word in words:
    if word in frequency:
        frequency[word] += 1
    else:
        frequency[word] = 1

# 打印结果
for word, count in frequency.items():
    print(word, count)

统计完成后,可以把结果保存到文件中,比如csv文件,方便以后使用。

import csv

# 写入csv文件
with open('frequency.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    for word, count in frequency.items():
        writer.writerow([word, count])

使用是一件非常简单的事情,只需要准备好文本,安装jieba库,就可以统计出现的频率了。

标签:

版权声明

1. 本站所有素材,仅限学习交流,仅展示部分内容,如需查看完整内容,请下载原文件。
2. 会员在本站下载的所有素材,只拥有使用权,著作权归原作者所有。
3. 所有素材,未经合法授权,请勿用于商业用途,会员不得以任何形式发布、传播、复制、转售该素材,否则一律封号处理。
4. 如果素材损害你的权益请联系客服QQ:77594475 处理。