汉字字频统计 之Python

汉字字频统计 实验内容 针对不同语料统计汉字的字频,并进行比较, 实验要求和目的 给出前 100 个汉字高频字的频率统计结果; 分别给出前 1

本文包含相关资料包-----> 点击直达获取<-------

汉字字频统计

实验内容

针对不同语料统计汉字的字频,并进行比较。

实验要求和目的

给出前 100 个汉字高频字的频率统计结果;

分别给出前 1、20、100、600、2000、3000、6000 汉字的字频总和;

计算汉字的熵值;

针对不同规模语料重复上述实验;

以图表的形式表示上述结果;

提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。

实验环境

操作系统 macOS Sierra

内存 16G

开发语言 Python

程序主要算法

统计字频,利用 Python 内置的逐行读取和行内逐字读取功能进行字频统计,建立一个 dict 类型的变量用于记录每个字对应的个数,如果读取的字在 dict 中出现过,则 value 值加一,如果读取到的字在 dict 中未出现过,则在 key 值中添加新读取的字。核心代码如下:

c++ with open(filepath, 'r') as txt_file: for line in txt_file: ustr = line.decode(encoding) for uchar in ustr: if is_chinese(uchar): account += 1 if _dict.has_key(uchar): _dict[uchar] = _dict[uchar] + 1 else: _dict[uchar] = 1

实验过程

首先进行语料的收集,我收集到有“人民日报 800 万字语料库”、“搜狗新闻库”,并在网上找了一些金庸的小说 TXT 版本。

然后进行代码的编写,先确定了核心算法,就是第四步中提及的代码,然后编写了如下函数完成实验指导中的要求:

给出前 100 个汉字高频字的频率统计结果,对应函数为:def cal_chinese_word_top100(_dict,_account):

分别给出前 1、20、100、600、2000、3000、6000 汉字的字频总和。对应代码为:def cal_chinese_word_7(_dict,_account):

计算汉字的熵值。对应代码为:def cal_entropy(_list):

实验结果

针对人民日报(800 万级语料)和金庸的小说《倚天屠龙记》(30 万级语料),进行字频分析,对比如下:

人民日报语料:

前 1、20、100、600、2000、3000、6000 汉字的字频总和: 0.035573727683 0.169908955911 0.403422616933 0.834240279379 0.988090484587 0.998732545555 0.998732545555

《倚天屠龙记》

前 1、20、100、600、2000、3000、6000 汉字的字频总和: 0.018951611838 0.213809263413 0.472524917909 0.837447793249 0.983958229316 0.997836441303 0.997836441303

实验结论和体会

实验结论:

通过对字频的统计。我发现了汉语的以下几个特征:

常用字大概为 2000 个左右,剩下的字可被看作是不常用字

汉字是一种熵值很大的文字,换句话说,汉字是一种文字意义丰富的文字。

参考文献

  • 基于语义分析排序和特征融合TL-ResNet18网络的汉字识别(杭州电子科技大学·薛如)
  • 视频检索与推荐系统的设计与实现(华中科技大学·陈凡)
  • 深度学习在社交网络文本分类中的应用研究(大连交通大学·方金朋)
  • 小学汉字学习系统的建模与实现(海南大学·张童童)
  • 文本综合处理平台的研究与实现(济南大学·王孟孟)
  • 基于文本挖掘技术的人工智能领域文献统计分析(燕山大学·孟晓宇)
  • 网络流量统计分析系统(吉林大学·石景龙)
  • 基于网络爬虫的信息采集分类系统设计与实现(厦门大学·周茜)
  • 视频处理平台的设计与实现(北京交通大学·时月月)
  • 深度学习在社交网络文本分类中的应用研究(大连交通大学·方金朋)
  • 基于B/S结构的对外汉语学习系统的设计与实现(电子科技大学·韦清)
  • 基于宽带网络的视频点播系统(吉林大学·纪砚秋)
  • 基于深度学习和迁移学习的书法汉字识别系统的研究与实现(北京邮电大学·李昂)
  • 个性化汉字笔顺智能教学研究及系统开发(湖州师范学院·张彩凤)
  • 分布式统计信息基础数据库统计报表查询子系统的设计与实现(福州大学·曾瑾)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/yuanma/35886.html

相关推荐

  • 基于SpringBoot框架的精品在线试题库系统

    这是一套采用Java语言开发的高质量在线题库系统源代码,基于流行的SpringBoot框架构建,该项目融合了Vue技术,开发工具为Idea或Eclipse,此在线题库系统适用于毕业设计或课程实践项目
    2024年05月23日
    14 1 3
  • 基于python实现面部表情识别

    面部表情识别 练习技能: 爬虫 数据清洗 计算机视觉(图片基本处理,信息提取) 深度学习 图像识别技术文档 一
    2024年05月14日
    1 1 1
  • 基于JSP和MySQL的农产品销售管理系统

    基于JSP和MySQL的农产品销售管理系统 摘 要 本文论述了基于JAVA,Web的农产品销售管理系统开发的目的及意义,目的是为了农产品资源的合理利用和物资的充分交流
    2024年05月14日
    13 1 2
  • 基于ssm框架的会议室预约管理系统、javaweb+mysql+maven架构

    在当今信息化社会,会议室预约管理系统的需求日益显著,随着企业规模的扩大和工作方式的多样化,高效地利用会议资源成为组织管理的重要一环,本研究旨在设计并实现一个基于javaweb开发的会议室预约管理系统
    2024年05月07日
    14 1 4
  • 基于Java的图书借阅系统

    这是一个🔥🔥基于Java的图书借阅系统(swing程序+Mysql数据库)🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 Java借阅系统开发技术栈为SwingGUI项目
    2024年05月23日
    21 1 6
  • 基于JSP+Mysql的图书馆管理系统

    毕业论文绪论: 图书馆作为知识传承与文化积累的重要场所,在数字化时代扮演着更为关键的角色,基于 JSP+Mysql 的图书馆管理系统的研究与开发,旨在解决传统图书馆管理中存在的诸多问题
    2024年05月07日
    3 1 2
  • JSP+SQL服装销售系统

    JSP+SQL 服装销售系统 1 设计工具 Java 版本:1,8 数据库:MySQL 框架:Spring + Spring MVC + MyBatis 服务器:Tomcat 前端解析框架:Thymeleaf 开发工具:Idea 2017 版本管理工具:Maven 版本控制工具:GitHub 2 详细设计 数据字典 用户信息表 字段名 字段类型 是否可为空 备注 Id Int(11) 否 主键 Modify Datetime 是 修改时间 Username Varchar(50) 否 用户昵称 Phone Char(11) 否 用户手机号码 realName Varchar(20) 是 用户真实姓名 Clazz Varchar(20) 是 用户所在班级 Sno Char(12) 是 用户学号 Dormitory Varchar(20) 是 宿舍号 Gender Char(2) 是 性别 Createtime Datetime 是 创建时间 Avatar Varchar(200) 是 头像 用户密码表 字段名 字段类型 是否可为空 备注 Id Int 否 主键 Modify Datetime 是 修改时间 Password Varchar(24) 否 用户密码 Uid Int 否 用户 id 商品表 字段名 字段类型 是否可为空 备注 Id Int(11) 否 主键 Modify Datetime 是 修改时间 Name Varchar(50) 否 商品名称 Level Int 否 商品成色 Remark Varchar(255) 是 商品详细信息 Price Decimal(0
    2024年05月14日
    44 1 4
  • 基于Spring+SpringMVC+hibernate+MySQL实现的体检中心管理系统

    基于Spring+SpringMVC+hibernate+MySQL实现的体检中心管理系统 摘 要 随着人们生活水平的不断提高,人们的保健意识随之增强
    2024年05月14日
    1 1 1
  • 基于SpringBoot框架的毕业生实习与就业管理系统

    这是一份关于🌟🌟SpringBoot平台的毕业生实习与就业管理系统🌟🌟的原创源代码,采用Java编程语言,并结合了SpringBoot和Vue技术栈,开发工具为Idea或Eclipse
    2024年05月23日
    7 1 1
  • 基于javaweb的停车场管理系统源码

    随着城市化进程的加快和汽车保有量的不断增加,停车场管理系统成为城市交通管理的重要组成部分,基于JavaWeb的停车场管理系统源码的研究与开发,是针对当前停车场管理面临的诸多问题和挑战而展开的
    2024年05月07日
    5 1 1

发表回复

登录后才能评论