财经领域事件抽取技术的研究与应用
这是一篇关于事件抽取,AC自动机,决策树,word2vec,模式匹配的论文, 主要内容为随着计算机的发展和互联网的日益普及,海量文本的出现极大地丰富了我们的信息来源。尤其在财经领域中,大量的财经新闻、公司公告、行业研报等非结构化文本的出现丰富了投资银行业与经纪业的信息来源。然而,这些文本的阅读和解析通常需要花费专业人士大量时间。从海量自由文本中自动抽取我们想要的数据成了当下急需解决的问题。信息抽取技术也成为了自然语言处理的重要研究领域。事件抽取是信息抽取领域的一个重要研究方向。事件抽取能从非结构化文本中抽取出用户感兴趣的事件信息,这样可以把自然语言表达的事件以结构化的形式抽取出来。因此,本文提出了财经领域的事件抽取技术。首先基于自由文本抽取算法,通过Python语言开发网络爬虫系统,并将该系统用于财经网站数据的采集与解析。然后基于所获取的文本数据,通过AC自动机、模式匹配等方法进行财经领域中的事件抽取。本文的主要研究内容如下:(1)基于聚类技术自动化抽取财经网站中的新闻正文。(2)通过句法依存识别主谓关系和动宾关系,获得事件句种子触发词。(3)使用新闻语料,通过开源的“结巴分词”工具将新闻分词,利用Word2vec进行训练生成词向量模型。通过词向量的相似性进行触发词聚类,获得本文中的不同事件类别的触发词,极大提升了触发词扩展的速度,减少了人工构建词典的工作。(4)针对事件抽取中非事件句比例高的问题,本文通过AC自动机算法,实现了通过触发词来对事件进行预分类。然后利用决策树算法对候选事件句进一步地分类处理,从而提高了事件分类的效率。(5)对于事件识别,通过模式识别进行事件元素的识别与抽取,其中针对不同的事件类型,本文提出了实体识别法、实体泛化法、实体结构法三种解决策略来进行模式匹配。为了提升分词效果,本文构建公司字典、政府部门字典、职位字典等相关字典,并成功将这些字典应用到分词器中。对于命名实体识别技术,本文首先通过哈工大社会计算与信息检索研究中心的LTP技术进行预处理,并通过实体字典进行二次识别,从而进一步提升命名实体识别的召回率。通过对实验结果地进一步分析,本文提出的事件抽取方法其准确率和召回率达到了业界较高水平,从而验证了所提出方法的有效性与可行性。本文提出的事件抽取技术已成功应用于“嗅金牛金融平台”的事件驱动模块与事件追踪模块,并得到了业界的一致好评。
互联网舆情监控系统的设计与实现
这是一篇关于中文分词,SSH框架,网络爬虫,AC自动机,字符串匹配算法的论文, 主要内容为随着互联网技术的飞速发展,互联网上的信息数据呈爆炸式增长,舆情信息的监控将起到非常重要的作用,它能从网络信息中找出低俗的、恶意的或带有诱导性的舆情内容,加强对网络内容的监管。但是由于信息总量庞大,传统的人工监管形式难以实现互联网舆情的有效覆盖,这给互联网安全乃至社会稳定都带来不小的隐患,因此互联网舆情监控系统已经显得迫在眉睫。本论文设计的互联网舆情监控系统针对用户所提出的监控内容要求,在指定的网络范围内,对舆情信息进行处理和分析,在应用界面上为用户提供舆情情况和趋势分析。我们选择目前使用率最高的跨平台语言——Java,依托SSH框架(Struts+Spring+Hibernate)开发本系统,使用新的MongoDB+MySQL的数据库架构,在提高海量数据的读写速度的同时兼顾了系统的事务处理能力。该系统依据开源爬虫框架WebCollector开发网络爬虫,并利用Aho-Corasick算法对爬取内容进行预处理,然后使用开源的Word分词组件对舆情信息进行分词处理,采用基于情感词典的方法对舆情信息进行极性情感分析,最终通过应用界面对处理和分析的结果进行展示。互联网的快速发展使得系统的词汇库在系统运行的过程中将变的越来越大,常用的字符串匹配算法无法满足系统正常运行的需求。本文通过对现有的字符串匹配算法进行改进来解决这个问题,提高了匹配的效率,进而满足系统的性能需求。本文所设计的监控系统主要包括舆情信息统计;监控条件的增加删除;舆情具体内容的显示;舆情趋势综合分析等功能。系统界面简洁友好且运行稳定。
基于AC自动机的抗干扰不良文本检测系统设计与实现
这是一篇关于文本检测,AC自动机,中文相似性,抗干扰检测的论文, 主要内容为随着信息通讯技术的发展和智能手机的普及,通过网络渠道获取和发布信息逐渐成为了我国民众日常生活的一部分。互联网上每天都会产生大量的文本信息供人们阅读,在传递有效信息的同时,也混杂了许多包含色情、谩骂、暴力反动、赌博诈骗等不良内容的文本。不良文本会干扰网络秩序,危害社会环境,对人民群众——尤其是青少年——产生不良影响。国家和各大平台都十分重视网络环境的治理,鼓励推进审查机制,但仍有不法分子为逃避审查,通过汉字拆分、同音字替换、形近字替换等主动干扰行为,把原不良文本“伪装”成正常文本再发布,给平台、社会带来损害。由于网民群体的低龄化、网络语境的个性化,上述主动干扰现象广泛存在于当前互联网文本中,导致目前的检测方法已经无法满足网络平台的现实需求。本文旨在通过改进现有的文本检测方法,使其能够处理不良文本中的干扰情况。本文首先对已有的不良文本检测方法、主流的检测系统进行了分析、归纳、总结,着重介绍了国内外在抗干扰文本检测方面已取得的工作成果及适用场景。接着,在文本检测层面,对研究涉及的主要理论与技术进行了大致介绍,理论上主要分析了含干扰不良文本的类型特征以及汉字音形码概念,技术上主要介绍了AC自动机算法及文本分类方法;在系统层面,针对不良文本主要特点,先对目标系统的功能性需求和非功能性需求进行了分析,设计了系统的整体架构和各个功能模块,再展开介绍了系统核心的抗干扰文本检测模块中的各个子模块。在设计核心模块时,针对各类干扰项的特点设计了相应的处理策略,引入汉字音形码和嫌疑数组改进了AC自动机的算法流程,通过横向对比实验确定了最适合用作文本检测子模块的分类模型,与抗干扰子模块相结合,在匹配出干扰项的同时考虑了语义特征,通过对比实验证明了和现有文本检测系统相比,该方案在准确率上和召回率上的表现均有提高。在具体实现过程中,采用Vue.js框架和Django框架进行前后端分离式开发,采用MySQL+Redis的数据存储方案,配合Celery异步任务队列提高系统处理高并发请求的能力,开发完成后,在Nginx服务器集群上部署系统并实现负载均衡,并对系统进行了测试,测试结果表明了系统能够满足需求。文章最后进行了工作总结,并提出了系统后续改进的方向。
财经领域事件抽取技术的研究与应用
这是一篇关于事件抽取,AC自动机,决策树,word2vec,模式匹配的论文, 主要内容为随着计算机的发展和互联网的日益普及,海量文本的出现极大地丰富了我们的信息来源。尤其在财经领域中,大量的财经新闻、公司公告、行业研报等非结构化文本的出现丰富了投资银行业与经纪业的信息来源。然而,这些文本的阅读和解析通常需要花费专业人士大量时间。从海量自由文本中自动抽取我们想要的数据成了当下急需解决的问题。信息抽取技术也成为了自然语言处理的重要研究领域。事件抽取是信息抽取领域的一个重要研究方向。事件抽取能从非结构化文本中抽取出用户感兴趣的事件信息,这样可以把自然语言表达的事件以结构化的形式抽取出来。因此,本文提出了财经领域的事件抽取技术。首先基于自由文本抽取算法,通过Python语言开发网络爬虫系统,并将该系统用于财经网站数据的采集与解析。然后基于所获取的文本数据,通过AC自动机、模式匹配等方法进行财经领域中的事件抽取。本文的主要研究内容如下:(1)基于聚类技术自动化抽取财经网站中的新闻正文。(2)通过句法依存识别主谓关系和动宾关系,获得事件句种子触发词。(3)使用新闻语料,通过开源的“结巴分词”工具将新闻分词,利用Word2vec进行训练生成词向量模型。通过词向量的相似性进行触发词聚类,获得本文中的不同事件类别的触发词,极大提升了触发词扩展的速度,减少了人工构建词典的工作。(4)针对事件抽取中非事件句比例高的问题,本文通过AC自动机算法,实现了通过触发词来对事件进行预分类。然后利用决策树算法对候选事件句进一步地分类处理,从而提高了事件分类的效率。(5)对于事件识别,通过模式识别进行事件元素的识别与抽取,其中针对不同的事件类型,本文提出了实体识别法、实体泛化法、实体结构法三种解决策略来进行模式匹配。为了提升分词效果,本文构建公司字典、政府部门字典、职位字典等相关字典,并成功将这些字典应用到分词器中。对于命名实体识别技术,本文首先通过哈工大社会计算与信息检索研究中心的LTP技术进行预处理,并通过实体字典进行二次识别,从而进一步提升命名实体识别的召回率。通过对实验结果地进一步分析,本文提出的事件抽取方法其准确率和召回率达到了业界较高水平,从而验证了所提出方法的有效性与可行性。本文提出的事件抽取技术已成功应用于“嗅金牛金融平台”的事件驱动模块与事件追踪模块,并得到了业界的一致好评。
互联网舆情监控系统的设计与实现
这是一篇关于中文分词,SSH框架,网络爬虫,AC自动机,字符串匹配算法的论文, 主要内容为随着互联网技术的飞速发展,互联网上的信息数据呈爆炸式增长,舆情信息的监控将起到非常重要的作用,它能从网络信息中找出低俗的、恶意的或带有诱导性的舆情内容,加强对网络内容的监管。但是由于信息总量庞大,传统的人工监管形式难以实现互联网舆情的有效覆盖,这给互联网安全乃至社会稳定都带来不小的隐患,因此互联网舆情监控系统已经显得迫在眉睫。本论文设计的互联网舆情监控系统针对用户所提出的监控内容要求,在指定的网络范围内,对舆情信息进行处理和分析,在应用界面上为用户提供舆情情况和趋势分析。我们选择目前使用率最高的跨平台语言——Java,依托SSH框架(Struts+Spring+Hibernate)开发本系统,使用新的MongoDB+MySQL的数据库架构,在提高海量数据的读写速度的同时兼顾了系统的事务处理能力。该系统依据开源爬虫框架WebCollector开发网络爬虫,并利用Aho-Corasick算法对爬取内容进行预处理,然后使用开源的Word分词组件对舆情信息进行分词处理,采用基于情感词典的方法对舆情信息进行极性情感分析,最终通过应用界面对处理和分析的结果进行展示。互联网的快速发展使得系统的词汇库在系统运行的过程中将变的越来越大,常用的字符串匹配算法无法满足系统正常运行的需求。本文通过对现有的字符串匹配算法进行改进来解决这个问题,提高了匹配的效率,进而满足系统的性能需求。本文所设计的监控系统主要包括舆情信息统计;监控条件的增加删除;舆情具体内容的显示;舆情趋势综合分析等功能。系统界面简洁友好且运行稳定。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/51502.html