分享5篇关于NLP的计算机专业论文

今天分享的是关于NLP的5篇计算机毕业论文范文, 如果你的论文涉及到NLP等主题,本文能够帮助到你

融媒体平台系统的设计与实现

这是一篇关于媒体融合,三微一端,内容管理,NLP的论文, 主要内容为随着互联网飞速发展,信息传播更迭速度快,及时有效的信息传播变得越来越重要。近几年随着媒体融合的概念提出,传统报纸、电视、广播媒体在积极拥抱新的媒体形态进行融合发展。从2014年党中央出台《关于推动传统媒体和新兴媒体融合发展的指导意见》开始,媒体融合已经在经营管理、渠道建设等方面取得令人欣喜的成绩,但同时也在技术、版权等方面存在很多急需解决的问题。例如在技术平台方面的问题主要在于技术更新慢、发布管理运营难以及分散媒体形式跟不上媒体发展的需求等。本文针对以上问题,设计实现了媒体融合管理系统——融媒体平台(Media Integration Platform,简称MIP)。本文首先分析媒体融合发展调研结果,总结出融媒体发展现状和背景。提出项目的基础架构和技术路线,着重分析Spring Boot、Vue及NLP在本系统中的应用。给出整个系统的用例图并详细分析了各个模块的功能性需求以及系统的性能、可靠性、兼容性等非功能需求。然后本文对系统架构进行设计,根据MVC三层架构提出每层具体的技术方案并设计了系统业务架构及系统技术架构。对功能模块设计后给出系统功能模块图。设计E-R图和数据库表,使用原型工具设计首页、内容、素材、互动、运营、数据统计及个人中心等界面。选用Restful风格的接口以及提供四种不同的系统部署方案。本文最后结合各模块的流程图、类图和时序图,详细设计并实现了内容管理、渠道管理、直播管理以及评论管理等功能模块。由测试结果可知,系统的功能及性能测试基本符合要求,现在已经在人民日报、人民政协网及新华社等媒体投入使用。融媒体平台将媒体渠道和内容资源进行整合,形成媒体矩阵,帮助媒体从业者构建“三微一端”(微信、微博、微视频以及客户端)全媒体发布平台。融媒体平台能够极大地提高媒体资源的利用率、促进媒体从业人员的协作效率,对进一步促进传统媒体与新兴媒体的融合发展都有着重大意义。

基于NLP与分布式爬虫框架的阅读类APP的设计与实现

这是一篇关于分布式,爬虫,NLP的论文, 主要内容为随着国内智能手机的飞速发展,人们对获取资讯信息的需求不仅仅局限报刊,刊物以及电视内容上,人们更希望能够随时随地,在自己碎片化的时间能获取各种信息资讯。同时各大新闻媒体纷纷将注意力转移到移动端APP的开发和推广上,聚合类信息客户端凭借其优秀算法技术,在人均单日启动次数、人均单日启动时长等数据指标上明显优于媒体新闻客户端。国内的中文资讯类产品已经基本趋于饱和,人们对中文类资讯的需求也得到了满足。同时随着中国的飞速发展,与世界的联系也越来越紧密,大家对于资讯的需求也不仅仅局限在国内的内容,也对国外实时的资讯内容越来越关注,但是由于新闻资讯这种时效性很强的特性,使得有的人也不满足与相对较慢的人工翻译内容,而更想去实时的获取外文资讯,同时又局限于英文阅读水平的限制,因此这一需求也就渐渐突显出来。所以为了能满足用户对阅读外文资讯的需求,开发一款能让用户顺畅阅读外文资讯的APP就显得很有必要。本文主要介绍了基于NLP与分布式爬虫框架阅读类APP的项目背景和意义、相关技术、系统需求分析、架构设计、主要功能模块的设计与实现以及系统测试等方面内容。该APP后台基于NLP与分布式爬虫框架,采用分布式架构,系统主要包含实时元数据采集、数据中转、内容详情抓取、数据分析、内容分发等模块。前端基于iOS开发,包含注册登录、内容订阅、实时翻译、扫一扫等模块。本文将对该APP整体和各模块的设计与实现进行阐述。本人主要负责后台的实时元数据采集、数据中转、内容详情抓取、数据分析、内容分发模块,参与了系统分布式架构及前端APP的部分功能的设计与实现。该APP的发布,能够满足当前人们对于国外实时资讯信息的获取,同时也能满足人们对于外文类资讯不容易读懂的需求。开发人员能够实时的去维护各种来源站点信息,数据中转模块以此来保证用户阅读内容的准确性,同时通过数据分析模块将准备的数据内容进行分析,来为用户阅读时的翻译准确性提供技术支持,在内容分发模块为用户提供相关推荐内容,以此来满足用户的兴趣订阅,达到推荐效果。

在线评测系统的评分方式研究与改进

这是一篇关于Online Judge System,NLP,考试,文本相似度,静态评分的论文, 主要内容为随着互联网的高速发展,一些传统的计算机类考试已经可以在网络上进行,基于互联网的在线编程考试的方式更是受到人们的追捧。如今,一些计算机类的考试都可以在网络上进行,比如全国的计算机二级考试、蓝桥杯竞赛、高校的编程类期末考试等。在计算机类的在线评测系统中,一般包含有各种不同的考题类型,包括填空题、选择题这样简单题型,也包括需要编写程序代码的主观题,编程类的考试系统被称为在线评测系统,英文:Online Judge System,简称OJ系统。OJ系统大多是基于B/S架构的程序,它运行在服务器上,当学生或者评测者使用OJ时,用户或者被评测者通过浏览器就可以进行编程类题目的评测,直接通过网页提交程序源代码,并不需要在本地安装IDE,也不需要进行繁琐的安装和配置。在哈工大等一些高校中,编程类的期末考试已经开始使用OJ系统,可见在不久的将来会有更多的高校将会采用编程类考试进行在线考试。相对与传统的纸质试卷方式进行编程类程序考试,使用在线评测系统不仅方便快捷,而且省时省力,为阅卷老师节省了很多的时间和精力,对于学生的成绩来说也有很好的区分度。可见,当今时代,越来越多的考试形式转移到了网上考试,OJ系统在我们的日常生活中扮演着越来越重要的角色。将来OJ系统也一定能够发展得功能更多,使用上更加便捷。以前的OJ系统仅支持C、Java等少数几种编程类语言,如今的OJ系统不断增加各种新的功能,Python、Java Script等新型热门编程类语言的功能也被被集成到OJ系统中。随着网络的发展,OJ的功能将会越来越多。随着OJ系统被人们普遍使用,一些OJ系统上的新型问题也不断被发现,不断被改进。如今OJ系统面临着评分过于死板的问题,对于一道编程类题目,系统对源码进行编译,结果只有正确和错误,而编程类题目又往往比较难,所以如果高校采用OJ进行期末考试,学生的成绩很难区分好坏,难以拉开不同编程能力学生成绩之间梯度。针对此问题,本文对传统的OJ系统评分方式进行研究,并尝试新的探索。对提交到OJ系统的代码进行分析,与参考答案的源码进行相似度比对,然后得出分数,有利于区分开每个人的编程能力。目前,不同文本的相似度的研究主要应用于自然语言处理(Natural Language Processing,简称NLP)中,目前国内对于程序的静态评分方向的研究较少,与国外的差距较大,本文对目前的OJ系统的静态评分方式进行研究,并使用自然语言中对文本相似度研究思路,尝试对程序源码进行分析,并设计算法,实现对OJ系统评测方式的进一步改进和优化。目前国内对于程序的静态评分处于起步阶段,本文主要针对C语言源码的静态评分方式的研究,为以后的其它编程类语言的评分提供了研究思路。

Distant Supervision for Relation Extraction Via Deep Residual Network

这是一篇关于NLP,关系抽取,远程监督,残差网络的论文, 主要内容为互联网的飞速发展为人们的日常生活提供了便利,也带来了大量数据。如何从海量数据中准确有效地获取有用信息成为人们需要面对的重要问题。关系抽取任务作为信息抽取的主要任务之一,其目标就是在庞大的松散无序的数据中提取出结构化的信息。例如,当给出句子“Bill Gates is the founder of Microsoft”以及两个实体“Bill Gates”和“Microsoft”时,我们希望得到(Microsoft,founder,Bill Gates)这样的关系三元组。其中,“founder”是关系抽取得到的结果。通过关系抽取获得的三元组数据为很多自然语言处理应用提供了支持,如问答系统,情感分析,知识图谱等。有监督的关系抽取需要人工标注数据集。在通常情况下,训练集的规模较小而且标注成本较高。远程监督通过对齐远程知识库减少人力消耗并且可以获得大规模的训练集。远程监督基于这样的这样的假设:如果两个实体在知识库中存在某种关系,则所有包含这两个实体的句子都表示这一关系。由于这个假设过于强大导致训练集中不可避免地出现很多被错误标签的噪声实例。这些噪声实例无疑会对模型的准确性产生影响。如何提高模型的抗噪声能力从而提高关系抽取的准确率是基于远程监督关系抽取任务的重要挑战。近几年来,深度学习被广泛运用在计算机视觉(CV),语音和自然语言处理(NLP)等领域并取得了不错的效果。在远程监督关系抽取任务中,经典方法的目标是减少强大假设带来的噪声实例,而深度学习的目标是减少误差的传递,提升模型的抗噪声能力从而提高关系抽取的效果。相关的研究有,Zeng[48]用卷积神经网络(CNN)来构建端到端模型完成关系抽取任务。之后,Zeng[47]又提出分段卷积神经网络(PCNN)模型通过多实例学习以及根据实体位置分段进行pooling操作的方法提升远程监督关系抽取的效果。Lin[29]提出句子级别的注意力机制有利于模型充分利用训练集提供的信息从而提高了准确率。Ji[24]在Lin的基础上,在模型中加入了实体的描述信息用于提高远程监督关系抽取的效果。Huang[23]将残差网络运用在远程监督的关系抽取任务中,取得了不错的效果。本文以远程监督的关系抽取为目标,在前人的基础上,基于残差网络,提出了一种新颖的模型用来减轻远程监督的关系抽取中误差传递的问题。本文的主要贡献如下:1.之前的研究忽略了词性信息和实体类型对模型准确率的影响。为了给模型提供更多的信息,本文将词性信息和实体类型输入网络。该想法的动机是,在关系抽取任务中,某些实体关系可能只存在于某些特定实体中。例如,大部分人与人之间的实体关系不会出现在地点与地点之间。在词性方面,本文通过各种词性在实体中所占的比例给词性进行分类。在实体种类方面,现有的自然语言处理工具可以很容易地获得实体的种类。这样每个单词都对应一种词性种类和实体种类。这两个种类作为词性嵌入和实体种类嵌入生成的依据,并分别加入向量表示层输入模型进行训练。增加的词性信息和实体种类信息有助于提高远程监督的关系抽取的准确性。2.很深的神经网络是很难被训练的,残差网络中使用的跳跃连接使得网络易于学习恒等函数,从而解决了深度网络的退化问题。在残差网络的帮助下,神经网络的深度可以达到100层以上。这一特点使得残差网络在计算机视觉任务中有很好的表现。但是,在关系抽取的任务中,输入神经网络的信息量要远小于计算机视觉任务输入神经网络的信息量,因此不需要非常深的神经网络,所以残差网络的优势不能被很好的发挥。在本文中,结合残差网络和卷积神经网络,提出了一种新颖的模型用于基于远程监督的关系抽取任务。相对于传统的残差网络,在本文提出的模型中,每一个残差块中拥有两个跳跃连接,因此网络可以不断学习之前卷积层所提取的特征,从而提高模型的关系抽取效果。本文选用NYT2010开放数据集[38]进行实验,本数据集通过纽约时报语料库对齐Freebase知识库获得。训练集数据通过对齐2005到2006年的纽约时报语料库获得,测试集数据通过对齐2007年的纽约时报语料库获得。在训练集中,一共有522611个句子,281270个实体对,18252个实体关系。在测试集中,一共有172448个句子,96678个实体对,1950个实体关系。单词的词性通过自然语言工具包(NLTK)获得。实体的种类通过斯坦福大学的命名实体识别器获得。词性的种类为37种,其中包含未知类。实体的种类分为3类,分别为人名,地名,组织名。实验的平台为Ubuntu操作系统。硬件配置方面为英特尔E5四核处理器,10G内存和英伟达GTX1060显卡包含6G的显存,程序框架为Tensorflow。实验方面,本文选用准确率/召回率曲线(P/R曲线)和前N个实例的准确率(P@N)作为评估指标。P/R曲线有利于对比各个模型在整体测试集上的表现,P@N有利于对比模型在实际应用方面的表现。参与对比的baselines有Zeng提出的CNN端到端模型[48],PCNN多实例学习模型[47],Lin提出的句子级别的注意力机制模型[29],以及Huang提出的残差网络模型[23]。其中几个baselines将被两两结合进行比较。首先,本文对提出模型的卷积层数进行对比,参与对比的卷积层数有13层,10层,7层,在这三个模型中分别设置了 4个,3个,2个残差块。表现较好的模型将用于和其他baselines进行对比。在最后的实验结果中,本文所提出的模型在P@N评估指标上的表现处于第一梯队。在整个测试集上,所提出的模型拥有最好的准确率并且在P/R曲线上处于主导位置,相对于其他baselines有明显的提高。