面向铁路工程地质勘察规范的命名实体识别研究
这是一篇关于知识图谱,命名实体识别,铁路工程勘察规范,语料库,深度学习的论文, 主要内容为命名实体识别作为自然语言处理领域的一项基础任务,是挖掘和管理海量文本信息的关键技术手段,在知识图谱构建中起到核心作用。在铁路工程地质勘察规范领域,因为现有的通用命名实体识别模型主要集中于研究通用数据,缺乏地质领域语料库的支持,因此研究工作基本处于空白。本文针对铁路工程地质勘察规范相关文本,进行铁路工程地质勘察规范语料库构建,利用构建的语料库进行命名实体识别研究,主要工作如下:(1)地质领域语料库的构建:参考《TB 10012—2001·J 124—2001:铁路工程地质勘察规范》、《TB 10027—2001·J 125—2001:铁路工程不良地质勘察规范》等国家地质行业标准规范,首次设计和构建了两个小规模的铁路工程地质勘察规范实体识别语料库,并生成了两个铁路工程地质勘察领域的数据集。(2)地质领域命名实体识别模型构建与实验:设计基于BERT的预训练模型的BERT-Bi LSTM-CRF模型进行地质领域的实体识别任务,在三个通用数据集以及地质领域数据集Goe NER2021上进行了实验,分析比较了四个模型在不同类型数据集上的实体识别任务预测效果,证明了算法优越性。(3)模型再评估:在铁路工程地质勘察规范领域的数据集上,对优化后模型预测效果进行再评估,根据预测的输出结果对一级实体工程类型、地质条件的特点及其二级实体识别结果进行进一步分析,并对未标注的文本进行预测分析,进一步提升了模型的能力。
面向铁路工程地质勘察规范的命名实体识别研究
这是一篇关于知识图谱,命名实体识别,铁路工程勘察规范,语料库,深度学习的论文, 主要内容为命名实体识别作为自然语言处理领域的一项基础任务,是挖掘和管理海量文本信息的关键技术手段,在知识图谱构建中起到核心作用。在铁路工程地质勘察规范领域,因为现有的通用命名实体识别模型主要集中于研究通用数据,缺乏地质领域语料库的支持,因此研究工作基本处于空白。本文针对铁路工程地质勘察规范相关文本,进行铁路工程地质勘察规范语料库构建,利用构建的语料库进行命名实体识别研究,主要工作如下:(1)地质领域语料库的构建:参考《TB 10012—2001·J 124—2001:铁路工程地质勘察规范》、《TB 10027—2001·J 125—2001:铁路工程不良地质勘察规范》等国家地质行业标准规范,首次设计和构建了两个小规模的铁路工程地质勘察规范实体识别语料库,并生成了两个铁路工程地质勘察领域的数据集。(2)地质领域命名实体识别模型构建与实验:设计基于BERT的预训练模型的BERT-Bi LSTM-CRF模型进行地质领域的实体识别任务,在三个通用数据集以及地质领域数据集Goe NER2021上进行了实验,分析比较了四个模型在不同类型数据集上的实体识别任务预测效果,证明了算法优越性。(3)模型再评估:在铁路工程地质勘察规范领域的数据集上,对优化后模型预测效果进行再评估,根据预测的输出结果对一级实体工程类型、地质条件的特点及其二级实体识别结果进行进一步分析,并对未标注的文本进行预测分析,进一步提升了模型的能力。
《宋词三百首》标注语料库的构建及计量研究
这是一篇关于《宋词三百首》,语料库,意象,计量分析的论文, 主要内容为宋词作为词学艺术的巅峰,具有独特的艺术魅力与思想价值,一直是文学、语言学的研究重镇。近年来,随着人工智能技术的发展,诗词的自动分析与生成也逐步发展成为计算语言学新的研究热点,形成了一批诗词语料库、知识图谱、自动作词等数据库和软件系统。目前,作为诗词计算基础的诗词标注语料库的构建及计量研究已经取得了一定的研究成果,形成了百万字级别的唐宋诗、全宋词等生语料以及一些小规模的唐诗依存树库、唐诗三百首知识本体、全宋词语料库等标注语料库和知识库。利用这些资源,已经进行了大量的基于字符串的分析和计算,少数进行了分词、词性、韵律和句法层面的分析。但在语料的标注、分析层级与深度上还有很大的提升空间,特别是基于标注数据的诗词意象分析。本文将这些问题主要归纳为以下三点:第一,部分计量研究未进行分词、词性标注,这导致统计不够精确,如将二字词“青天”当成“青”和“天”两个词来统计;第二,较少涉及义类标注,从而缺乏语义信息,造成语义归类的错误,如将“三月”与“明月”归为一类统计;第三,标注层次停留在字词层面,较少关注诗词中极具特色的意象和情感层面,这导致诗词统计集中于高频字词的使用分布上,而对意象及情感的信息获取有限,无法挖掘深层次的诗词信息。针对上述三大问题,本文以唐圭璋先生所整理的《宋词三百首笺注》作为语料来源,构建了包含282首宋词、2万多字的多层级标注语料库。首先,针对标注层次的局限,本文打破以往单一的标注层次,尝试以词为单位,进而设计出了“词(分词、词性)—意象—情感”的多层次标注体系。其次,本文实现了对词的深度标注,包括分词、词性标注和义类标注等,进而可以窥见宋词的语义内容。最后,针对意象及情感层面设计了较为合理的标注体系,在词标注的基础上对意象进行标注,标注了意象内部的词性构成,清晰地展现了词与意象的关系;并基于意象语义的多层性,标注了意象的字面义、非字面义和二者的映射关系等;还对宋词进行了篇章情感的标注,从而有利于对宋词意象展开地毯式分析,统计出意象隐喻模式和情感分布等内容。基于《宋词三百首》标注语料库已标注的信息,本文进行了多角度的计量研究并得出如下结论:(1)宋词中字、词、意象的使用频次都呈现长尾分布,符合齐夫定律。在宋词词汇中,单音节词占据主导地位,其中,“人”出现的频次最高;实词占比远高于虚词。在意象中,静态意象和泛称意象占据主导地位,“東風”意象的出现频次最高。宋词的篇章情感以负面为主,整体呈现悲观消极的情感基调。(2)基于词、意象的语义统计,获得了宋词在语义层面上的使用规律。在词的义类分布中,词人对季节词以及时段词的偏好不同,季节词的使用频次:春>秋;时段词的使用频次:年>日>月;而在一天中的时段词中,以傍晚或夜晚的语义指向为主。在意象的义类分布中,天体义类的使用频次:月>太阳>星;大地义类的使用频次:陆地>水域>空域;液体义类的使用频次:雨>雪>霜>露;气体义类的使用频次:东风>西风、云>雾。(3)通过标注及统计发现,《宋词三百首》共有24058个字例,2080个字型;有22221个词例,2745个词型,在字面义层面上,可以归结为916个不同的义类;有2002个意象例,1228个意象型,在字面义层面上,可以归结为275个不同的义类,在非字面义层面上,可以归结为160个不同的义类,这进一步说明字面义与非字面义不是一一对应的关系,二者的语义映射以情感隐喻为主,占据30.47%。这些数据充分验证了本文标注的必要性与可行性,并揭示了《宋词三百首》中字词、意象以及隐喻、转喻模式的具体分布,为计算机分析和宋词自动生成提供宝贵的基础资源。
基于B/S架构的语料库管理系统
这是一篇关于WEB平台,语料库,多线程,大数据的论文, 主要内容为随着语音识别技术的不断发展,为了进一步提高语音识别技术的水平,研究人员需要使用更多的音频数据,从而获取更好的声学模型,这使得音频数据语料库的系统化管理显得尤为必要。特别是声学模型的应用范围具有局限性,语音识别技术在各领域的广泛应用使得其在产业化过程中积累了大量的音频数据,这使得音频数据语料库的系统化管理更加尤为重要。随着音频数据量的不断增加,音频数据管理工作面临着巨大的挑战,音频数据的增加、删除、修改、查询及使用等越来越繁杂。针对上述问题,本文提出将音频数据及其对应的文本数据整理成语料库的方案,使用基于B/S架构的WEB应用系统进行管理,借助MySQL数据库存储音频相关数据,将数据以可视化语料库的形式提供给数据管理人员。本论文基于Java语言,运用网络编程技术实现WEB应用系统,使用多台Linux系统的服务器存放音频数据。首先,本系统引导用户设置语料库的相关特征,将音频数据及其标注结果存储至数据库中,然后,系统根据语料库的参数判断音频格式并进行分类,将零散的音频数据和文本数据整理成语料库。另外,该系统允许数据管理人员对语料库及其包含的音频数据进行增加、删除、修改、查询等基本操作,同时,该系统还提供了音频标注、提特征、生成训练集和测试集等功能。该系统包含了语音识别前期数据准备的所有工作,它的实现对数据管理工作和语音识别技术具有很重要的意义。
面向铁路工程地质勘察规范的命名实体识别研究
这是一篇关于知识图谱,命名实体识别,铁路工程勘察规范,语料库,深度学习的论文, 主要内容为命名实体识别作为自然语言处理领域的一项基础任务,是挖掘和管理海量文本信息的关键技术手段,在知识图谱构建中起到核心作用。在铁路工程地质勘察规范领域,因为现有的通用命名实体识别模型主要集中于研究通用数据,缺乏地质领域语料库的支持,因此研究工作基本处于空白。本文针对铁路工程地质勘察规范相关文本,进行铁路工程地质勘察规范语料库构建,利用构建的语料库进行命名实体识别研究,主要工作如下:(1)地质领域语料库的构建:参考《TB 10012—2001·J 124—2001:铁路工程地质勘察规范》、《TB 10027—2001·J 125—2001:铁路工程不良地质勘察规范》等国家地质行业标准规范,首次设计和构建了两个小规模的铁路工程地质勘察规范实体识别语料库,并生成了两个铁路工程地质勘察领域的数据集。(2)地质领域命名实体识别模型构建与实验:设计基于BERT的预训练模型的BERT-Bi LSTM-CRF模型进行地质领域的实体识别任务,在三个通用数据集以及地质领域数据集Goe NER2021上进行了实验,分析比较了四个模型在不同类型数据集上的实体识别任务预测效果,证明了算法优越性。(3)模型再评估:在铁路工程地质勘察规范领域的数据集上,对优化后模型预测效果进行再评估,根据预测的输出结果对一级实体工程类型、地质条件的特点及其二级实体识别结果进行进一步分析,并对未标注的文本进行预测分析,进一步提升了模型的能力。
基于知识图谱的国内外语料库研究与应用对比分析
这是一篇关于语料库,CiteSpace软件,可视化分析,知识图谱的论文, 主要内容为语料库是现代语言学研究的重要工具之一。目前国内收录在中国知网(CNKI)最早的有关语料库的文献发表于1982年8月。语料库发展至今,对语料库的建设与完善的研究和对语料库应用于其他学科的相关研究成果丰硕。随着语料库的发展,语料库语言学、语料库翻译学、语料库文体学等以语料库为主要研究工具的衍生学科也迅速发展,对语料库的研究与应用也成为目前语言学领域的研究重点。本研究将2010-2020年中国知网(CNKI)全文数据库有关国内语料库研究与应用的8,884篇和Web of Science数据库中有关国外语料库应用与研究的9,431篇文献作为数据样本,基于科学计量学的知识图谱分析法,运用Cite Space V 5.7.R3可视化软件,采用文献资料法、梳理统计法、逻辑分析法等研究方法,对国内外语料库相关领域的应用与研究进行客观的、系统的量化分析,从整体上把握该领域的研究现状。研究主要分析了国内外语料库研究与应用领域的发文量、作者、研究机构、研究重点及研究前沿,将国内外研究数据进行量化和可视化分析,通过对比分析发现:语料库应用与研究相关领域的发展与国家的政策和信息技术的发展密切相关。国内语料库领域研究方向具有鲜明的政治特色,国外语料库应用与研究相关领域学者和研究机构合作密度高于国内,研究合作区域内部合作较多,跨国与跨区域合作较少。国内语料库应用与研究前沿话题研究方向较为分散,近些年来研究与国家政治联系较为紧密,对语料库建设研究投入较多;而国外语料库研究领域研究前沿话题比较单一,大多集中于对传统语言学领域的研究和探索以及对社交媒体语料的研究当中。对语料库研究与应用的可视化分析有利于帮助研究者系统地认识与了解现代语料库的应用与发展,提高我国语料库的建设水平,推动我国语料库应用的整合与资源共享,推动富有中国特色的语料库建设。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://m.bishedaima.com/lunwen/48433.html