使用是一件非常简单的事情,但是需要注意的是,要统计出现的频率,需要先对文本进行分词处理,这样才能准确统计出现的次数。
需要准备好要统计的文本,可以是一段文本,也可以是一个文件,比如txt文件,但是要注意,文本中不能有标点符号,否则会影响统计结果。
要使用,需要安装一个第三方库,比如jieba,这是一个中文分词库,可以把文本中的中文词语分割出来,从而统计出现的频率。
import jieba # 读取文本 text = open('text.txt', 'r', encoding='utf-8').read() # 使用jieba进行分词 words = jieba.lcut(text) # 统计词频 frequency = {} for word in words: if word in frequency: frequency[word] += 1 else: frequency[word] = 1 # 打印结果 for word, count in frequency.items(): print(word, count)
统计完成后,可以把结果保存到文件中,比如csv文件,方便以后使用。
import csv # 写入csv文件 with open('frequency.csv', 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) for word, count in frequency.items(): writer.writerow([word, count])
使用是一件非常简单的事情,只需要准备好文本,安装jieba库,就可以统计出现的频率了。