使用是一件非常简单的事情,但是需要注意的是,要统计出现的频率,需要先对文本进行分词处理,这样才能准确统计出现的次数。
需要准备好要统计的文本,可以是一段文本,也可以是一个文件,比如txt文件,但是要注意,文本中不能有标点符号,否则会影响统计结果。
要使用,需要安装一个第三方库,比如jieba,这是一个中文分词库,可以把文本中的中文词语分割出来,从而统计出现的频率。
import jieba
# 读取文本
text = open('text.txt', 'r', encoding='utf-8').read()
# 使用jieba进行分词
words = jieba.lcut(text)
# 统计词频
frequency = {}
for word in words:
if word in frequency:
frequency[word] += 1
else:
frequency[word] = 1
# 打印结果
for word, count in frequency.items():
print(word, count)
统计完成后,可以把结果保存到文件中,比如csv文件,方便以后使用。
import csv
# 写入csv文件
with open('frequency.csv', 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
for word, count in frequency.items():
writer.writerow([word, count])
使用是一件非常简单的事情,只需要准备好文本,安装jieba库,就可以统计出现的频率了。