# 📙小说分词统计-数据可视化

自营博客 项目合集 CSDN博客 Gitee GitHub 公众号 QQ Group QQ 微信 小红书 闲鱼 小程序商店

# 步骤概览

# 具体实现

读取文本数据: 我们首先将《战争与和平》的文本文件读入程序中。这里假设文件名为war_and_peace.txt并且位于当前工作目录。

使用jieba进行分词jieba是一个中文分词工具,我们使用它将整篇文章分割成一个个单词。

统计人名出现次数: 我们定义了一个包含主要人名的列表,并使用Counter对这些人名在分词结果中的出现次数进行统计。

合并别名: 为了统计的准确性,我们将一些别名合并到相应的人名。例如,“公爵”计入“安德烈”,“小姐”计入“娜塔莎”,“伯爵”计入“皮埃尔”。

绘制统计图表: 使用matplotlib绘制柱形图,展示出现次数最多的10个人名及其出现次数。

# 结果展示

运行上述代码后,我们得到一张柱形图,显示了《战争与和平》中出现次数最多的10个人名及其出现次数。这种可视化方法可以帮助我们更直观地理解小说中主要人物的出场频率和重要性。


请确保在运行代码前已安装必要的Python库:

pip install jieba matplotlib

并将《战争与和平》的文本文件放置在当前工作目录中。

# 程序