基于主题模型的网络舆情重点人物用户画像系统
这是一篇关于网络舆情,文本分类,LDA,用户画像的论文, 主要内容为随着社交网络的飞速发展,网络舆情的监测和控制受到了越来越大的挑战,本文针对社会影响较大的网络舆情事件中起到一定传播和影响作用的人物进行数据挖掘分析,并给出这些人物的用户画像,在此基础上,可以对这些人进行实时监测,有利于在第一时间获取违规言论,及时控制事件的恶性影响传播。在总结了网络舆情和用户画像的相关研究的基础上,本文提出了一种针对重点人物微博数据的文本分类的方法,并将此方法应用到了本文实现的系统里。本文的主要工作有以下几点:(1)提出一种基于LDA主题模型和KNN文本分类算法的重点人物微博内容分类方法。利用LDA主题模型获取带有语义信息的主题词矩阵,并将词矩阵做为KNN文本分类算法的输入,得到主题矩阵的分类结果,此结果作为微博内容的分类结果(分类结果类型为人为伤害类型、自然灾害类型、政治倾向性类型或其他类型四种类型中的一种)。(2)利用本文提出的分类算法,结合SSH框架和Spark分布式技术,采用Java语言,设计并实现了针对网络舆情事件中传播影响较大的人物的用户画像系统。最后,针对本文提出的算法和实现的系统,进行了测试,验证了系统的可行性和有效性。
新冠疫情舆情信息分析系统的设计与实现
这是一篇关于网络舆情,MVC架构模式,数据爬取,神经网络模型的论文, 主要内容为随着数字通信技术的发展及微博等社交媒体在人们日常生活中的深度融入,公民公共表达意愿与能力提升,人们进入“表达”的时代。舆情研究也逐渐上升到国家战略的位置,备受政府与学界的重视。传统的舆情分析系统,一方面多使用大数据计算和分析技术进行数据处理,缺乏数据广度、挖掘深度;另一方面主要集中在商用和政府治理领域,专注于科研领域的舆情分析系统较少且影响力甚微。因此,需要设计并实现一款对数据进行深度挖掘的、专注于为科研人员服务的舆情信息分析系统。新冠疫情舆情信息分析系统包括全国疫情、国内疫情走势分析、世界疫情数据一览、疫情新闻以及微博疫情舆情分析五大功能模块,依据传统的软件工程流程进行设计实现。系统的总体结构采取MVC三层架构模型,将整个系统按表现层、服务层、数据底层分开,系统的前后端分别基于Vue和Spring Boot框架进行搭建,前后端使用JSON格式数据进行交互通信,以此实现前后端的分离,使得系统拥有低耦合高内聚的特点。在数据爬取上,使用Scrapy框架,通过网络请求模块进行数据爬取,通过分析提取模块对爬取的数据进行提取,将数据进行清洗等预处理工作后转换为结构化数据,以便进行分析与挖掘。在数据分析上,使用双向长短时记忆(Bi-directional Long Short-Term Memory,Bi_LSTM)神经网络模型对微博用户评论进行情感分析,判断用户评论的情感类别。在数据存储上,使用My SQL与Redis相结合的方式,以提高后台数据的响应速度。在数据展示上,系统采用ECharts插件进行数据的展示,可以给用户提供更加灵活直观的数据展示。系统开发完成后,通过对系统进行压力测试,系统功能接口的平均响应时间在1542ms左右,CPU资源平均占用率在45%左右。系统在内部测试并上线一段时间后运行平稳,系统所实现的功能基本达到了预期的要求,给用户带来了极佳的产品体验,具备极大的科研实用价值。
基于新浪微博舆情采集与倾向性分析系统
这是一篇关于网络舆情,新浪微博,倾向性分析,趋势预测,Spring的论文, 主要内容为随着互联网的飞速发展,互联网的普及率越来越高,人们越来越愿意通过网络表达自己对一些社会热点、突发事件的个人观点。如今的网络舆情颠覆了传统的模式,开始以一种势不可挡的趋势进入到社会层面,对社会造成十分深远的影响。微博集结了互动功能强大、实时性突出、便捷的手机支持以及名人效应等诸多优点,已经逐步取代博客、贴吧等其他老牌的舆情传播平台,对网络舆情的发展起到了推波助澜的作用,它也成为现如今最重要的网络舆情传播平台。微博的关注功能可以将用户们关联到一起,使得信息的传播速度得到历史性的变革,这也使得利用微博信息进行研究从而掌握舆论发展方向成为可能,更可以为政府、企业提供科学的分析结果,提高它们的决策能力,具有极高的社会价值和商业价值。本系统主要分为舆情采集模块、舆情信息预处理模块、舆情信息分析模块、舆情信息服务模块和系统管理模块等五大模块。选择新浪微博作为舆情分析系统的数据来源,利用Java的定时任务对新浪微博的内容进行定时抓取,将获得的页面内容按照新浪微博页面的结构特点进行分解,存入数据库,再利用文本聚类、向量化等分类手段进行分析,最后通过倾向性分析给出结果,并在舆情分析的基础上以图表的形式将舆情在一段时间的走势呈现给用户。在软件层面上,本系统选择SpringMVC、Spring、Hibernate等开源技术作为整体架构,降低各模块之间的耦合程度,提高程序的可扩展性。在采集和页面解析模块中还分别使用到MySQL、HtmlParser、ICTCLAS中文分词系统等开源技术。在系统开发过程中,我们对系统进行了单元测试、功能性测试、性能测试以及安全测试。在测试过程中我们选择“捉妖记”作为关键词进行数据采集,最终获得2015年7月9日至2015年7月21日之间“捉妖记”相关微博432361条,通过对这些数据的去重、去噪、语义分析、文本聚类、词性分类等一系列操作,最终获得了13天当中关于“捉妖记”话题的舆情走势,以电影上映日期7月16日作为分水岭,上映之前“捉妖记”相关的正面微博占比在45%上下浮动,上映之后正面的微博占比提高到了90%以上。在实际应用中,片方可以根据舆情在不同时期的特点,采取不同的宣传策略,以获得利益的最大化。
面向“一带一路”的社交网络舆情空间语义关联分析
这是一篇关于新浪微博,网络舆情,中文分词,词频,WebGIS,语义关联,聚类分析的论文, 主要内容为在大数据时代,如何快速、高效的对海量的多源数据进行分析并建立舆情监控和引导机制从而为管理者提供决策支持是当前研究的热点和难点。随着空间数据采集、存储和分析处理等现代技术手段的迅速发展,一方面,空间数据量急剧膨胀,复杂性显著增大;另一方面,空间数据库存在的大量空间数据及其相关的非空间数据中隐藏的许多重要的信息未得到充分利用,尤其对于网络舆情数据分析方面发展缓慢。新浪微博在我国拥有上千万的用户量,每天产生大量的用户信息,分析和挖掘新浪微博舆情数据具有很高的应用价值。本文针对目前研究新浪微博网络舆情较少的前提下,以面向“一带一路”的社交网络舆情空间语义关联分析为研究方向,利用新浪微博网络舆情数据,通过自然语言处理和空间分析等方法,主要完成了以下内容:(1)通过分析关于“一带一路”话题的新浪微博网络舆情数据,设定用于数据获取的关键词,并通过数据爬虫技术和新浪微博开放平台提供的数据接口两种方法获取到新浪微博网络舆情数据。(2)对获取得到的新浪微博网络舆情数据进行分析,设计网络舆情数据存储类型和数据组织形式,并使用MySQL网络数据库对数据进行存储,构建主键和数据库引擎,使数据的检索等操作更为便捷。(3)选择了合适的获取地理空间数据方法,包括博文文本自带的地址数据、IP地址解析等,通过百度地图地址解析API得到百度地图坐标系的经纬度坐标,并通过坐标系转换获取图块坐标。通过中文文本分词技术对博文文本进行分词处理,统计了博文热词词频,得出了高频热词,并通过分析新浪微博话题表现形式,结合高频热词总结出了热门话题。(4)构建文本语义相似度分类模型,实现了对未知博文文本自动分为对应的主题类别。通过构建语义树,计算了基于主题的语义关联度,得到了语义树各个节点之间的关联度,为信息检索提供了支持。对网络舆情进行了时空特征分析,总结了网络舆情按照时间和空间上的变化规律和分布状况。针对百度地图瓦片服务,实现了基于瓦片图块的空间语义聚类分析。(5)结合WebGIS相关技术,利用Vue、Laravel等开发框架,构建了基于B/S的面向“一带一路”的社交网络舆情空间语义关联分析可视化平台。
面向舆情监测的主题爬虫设计与分析
这是一篇关于主题爬虫,SVM分类器,增量学习,网络舆情的论文, 主要内容为随着社会的进步,互联网逐渐成为人们表达舆论的一个重要平台。与传统的媒体相比,网络具有传播迅速、用户匿名等特点,这对社会舆论起到了很好的监督作用,但也容易包含反动、迷信和黄色的内容,给社会安定甚至国家安全带来困扰。因此,如何在丰富的网络信息中及时获取当前网民关心的舆情信息,帮助政府及时了解当前社会重要事件及舆论方向就显得十分重要。 运用搜索引擎等信息技术进行网络舆情的搜集与监控是切实有效的方法。本文提出了一种改进的基于在线增量学习的主题爬虫SVM分类器算法。通过对传统主题爬虫SVM分类器的改进,将历史训练集中对正反例影响较大的样本剔除并与增量集重新训练来获得完备的训练集,以提高获取率。最后以该算法为基础构建了一个主题爬虫框架,开发完成了一个面向网络舆情抓取的主题爬虫系统,实验结果表明,在网络舆情的采集过程中有效的提高了网络舆情信息的获取率。 本文的具体研究工作主要有:一是信息采集和预处理技术。研究如何从松散的非结构化信息中采集资料。利用主题爬虫技术和网页净化技术、中文分词技术,实现网络信息的自动采集与结构化存储。二是SVM分类器分类算法研究。通过人为设定的某一主题,经过训练这一主题的训练集得到主题向量的向量模型表示,然后将实际抓取的页面跟训练得到的主题向量模型进行相关度计算,将高相关度的网页提取出来。实验数据表明,在查准率和查全率以及主题爬虫的获取率等方面,改进的增量学习的SVM分类方法的结果比传统SVM分类方法明显要好。三是开发完成了一个网络舆情抓取原型系统。在以上研究的基础上,本文开发完成了一个面向网络舆情的主题爬虫系统,用该系统对部分网络的舆情信息进行爬取,结果表明:本系统在主题舆情获取上取得了良好的效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://m.bishedaima.com/lunwen/47095.html