关注传播模式与用户相关性的微博话题检测
这是一篇关于社交媒体,话题检测,传播模式,用户相关性的论文, 主要内容为自动检测社交媒体中的潜在话题是一项重要的任务。它有助于分析海量帖子中的内容信息,并在相关下游任务,如短文本分类、对话摘要、推荐系统中发挥了重要的作用。传统的主题模型在面对篇幅简短的社交媒体文本时,会面临数据稀疏问题,导致推断出的话题效果不佳。依托神经网络模型的发展,最新的研究采用编码社交网络与神经话题推断相结合的方式,在建模帖子文本内容的基础上,同时整合社交网络中结构特征,已经被证明可以缓解数据稀疏问题。然而,之前的研究在整合结构特征时依然存在两个问题:(1)话题可以沿着社交网络上的链路结构以宽度或深度的方式传播,现有方法在编码社交网络时没有考虑话题的不同传播模式,导致整合到单一、不完整的传播特征。(2)进一步使用变分自编码器推断话题时,假设数据点间的潜在话题是相互独立的,没有考虑社交网络中复杂的用户交互关系,导致在推断话题时忽视了用户间的相关性。针对上述问题,本文的主要工作如下:(1)在编码社交网络阶段建模话题的两种传播模式:宽度扩散和深度传播。本文提出了基于双流图卷积网络的微博话题检测方法,该方法通过关注两种传播模式在路径选择上的不同,聚合来自不同传播路径中的上下文信息,既缓解了单一帖子所面临的的数据稀疏问题,还融合了不同的话题传播特征。(2)在话题推断时进一步融入用户相关性。变分自编码器中的标准高斯分布假设数据点是相互独立的,无法描述用户间的交互关系。为解决这一问题,本文提出基于图先验变分自编码器的话题检测方法,进一步在话题推理阶段建模用户的交互行为。该方法在变分自编码器推断话题时,首先根据用户间的交互行为构建图先验分布,然后在图先验分布的引导下使得潜在话题向量的推理过程考虑用户间的相关性,提升推断话题的质量。本文在三个真实的新浪微博数据集上进行实验,结果表明建模话题的两种传播模式可以获得更加丰富的上下文信息。在话题推理阶段进一步整合用户交互可以更好地融入社交网络中的相关性信息,从而获得更高质量的话题。
关注传播模式与用户相关性的微博话题检测
这是一篇关于社交媒体,话题检测,传播模式,用户相关性的论文, 主要内容为自动检测社交媒体中的潜在话题是一项重要的任务。它有助于分析海量帖子中的内容信息,并在相关下游任务,如短文本分类、对话摘要、推荐系统中发挥了重要的作用。传统的主题模型在面对篇幅简短的社交媒体文本时,会面临数据稀疏问题,导致推断出的话题效果不佳。依托神经网络模型的发展,最新的研究采用编码社交网络与神经话题推断相结合的方式,在建模帖子文本内容的基础上,同时整合社交网络中结构特征,已经被证明可以缓解数据稀疏问题。然而,之前的研究在整合结构特征时依然存在两个问题:(1)话题可以沿着社交网络上的链路结构以宽度或深度的方式传播,现有方法在编码社交网络时没有考虑话题的不同传播模式,导致整合到单一、不完整的传播特征。(2)进一步使用变分自编码器推断话题时,假设数据点间的潜在话题是相互独立的,没有考虑社交网络中复杂的用户交互关系,导致在推断话题时忽视了用户间的相关性。针对上述问题,本文的主要工作如下:(1)在编码社交网络阶段建模话题的两种传播模式:宽度扩散和深度传播。本文提出了基于双流图卷积网络的微博话题检测方法,该方法通过关注两种传播模式在路径选择上的不同,聚合来自不同传播路径中的上下文信息,既缓解了单一帖子所面临的的数据稀疏问题,还融合了不同的话题传播特征。(2)在话题推断时进一步融入用户相关性。变分自编码器中的标准高斯分布假设数据点是相互独立的,无法描述用户间的交互关系。为解决这一问题,本文提出基于图先验变分自编码器的话题检测方法,进一步在话题推理阶段建模用户的交互行为。该方法在变分自编码器推断话题时,首先根据用户间的交互行为构建图先验分布,然后在图先验分布的引导下使得潜在话题向量的推理过程考虑用户间的相关性,提升推断话题的质量。本文在三个真实的新浪微博数据集上进行实验,结果表明建模话题的两种传播模式可以获得更加丰富的上下文信息。在话题推理阶段进一步整合用户交互可以更好地融入社交网络中的相关性信息,从而获得更高质量的话题。
面向新闻报道的话题检测技术研究
这是一篇关于话题检测与跟踪,话题检测,系统相似模型,语义划分的论文, 主要内容为话题检测与跟踪(Topic Detection and Tracking,TDT)作为一个新兴的自然语言处理研究方向,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能和机器学习等多个领域,是一个跨学科领域的综合性课题。话题检测与跟踪旨在基于事件对信息进行组织和利用,同时也是为了应对信息过载问题而提出的一项应用研究。TDT是指在新闻专线和广播新闻等来源的新闻数据流中自动的发现话题并把话题相关的内容联系在一起的技术。自1996年TDT概念提出以来,国内外许多研究机构都参与了这一技术的研究。目前TDT研究已经引起了国内外研究者们的广泛关注,逐渐成为自然语言处理领域的一个研究热点。 本文以文本形式的英文新闻报道流为处理对象,对话题检测任务进行了深入细致的研究。我们首先介绍了话题检测与跟踪技术的相关概念,以及近年来的发展动向。然后重点介绍了系统相似模型及系统相似度计算方法。本文分析词变体与缩略词在话题检测与跟踪中的作用,研究并实现了一种基于形念学与语义相结合的词变体与缩略词的识别方法。 本文针对话题检测研究中存在的“难以区分”的难题,并分析了英语新闻报道内容及书写形式上的特点研究并实现了一种基于语义划分的话题检测技术。实验证明,基于语义划分的话题检测算法对于解决“难以区分”问题非常有效。最后探索了时间信息在话题检测中的应用研究,研究并实现了基于话题持续时间的动念阈值模型,并结合其特点采用了一种比值法来选择和话题最相似的报道。通过在英语语料上对该动态阈值模型进行实验证明基于话题持续时间的动念阈值模型配合比值法的使用大大提高了系统的整体性能。
基于增量型聚类的新闻话题检测系统设计与实现
这是一篇关于网络新闻,新闻采集,增量型聚类,话题检测的论文, 主要内容为信息技术日益发展,网络上大量的新闻更是爆炸式出现,它们不同于以往的纸质新闻,打破了纸质新闻在时效性和广泛性方面的局限性。网络新闻打破时间空间的限制的同时覆盖了社会和日常生活的方方面面,这些涉及的领域包括社会板块、金融板块、经济板块以及体育板块等。然而,每位读者都有自己感兴趣的话题和报道,那些个人不关心的新闻话题便自动被归类为噪声。为了节省读者的时间,也为了让大家愉快的浏览自己感兴趣的网络新闻,本文设计并实现了新闻话题检测系统,将网络新闻进行分类整理,将同类新闻整理成专题,用户便可以深入了解整个话题,节约了时间的同时也提高了用户体验。本文就是在这样的研究背景下设计并实现了基于增量型聚类的新闻话题检测系统,在实现过程中依次进行如下几步完成:(1)在论文准备阶段先确定系统的需求,其中软件的功能性需求包括新闻采集,数据处理,话题检测,数据存储。非功能性需求则包括可用性,稳定性,易用性,安全性,可扩展性等。在确定需求的基础上查阅相关文献,了解目前新闻话题检测方面的国内外研究现状以及每种研究方式的可用性和存在的缺陷。通过对这些材料的研究以及本文的启发,设计并实现话题检测系统,并最终确定本文设计的系统框架包括以下三部分内容:新闻信息采集,新闻数据处理,基于增量型聚类的新闻话题检测。(2)接下来是具体的实现,该系统的实现过程中用到了很多的技术,比如在新闻信息采集中使用的网络爬虫技术、网页解析技术、信息抽取技术,在新闻文本分词过程中的分词技术。在话题检测过程本文在传统Single-Pass聚类算法的基础上考虑到新闻本身存在的特点,用向量空间模型表示文本,并提出增量式更新特征权重的思想,给予对话题区分重要的词更大的权重,从而提高了话题聚类的准确性。(3)本文设计的系统采用合适的B/S架构模式,这个架构包括数据访问层、表式层即界面设计以及业务逻辑层这三层结构,使用这个架构有以下优势:只需要浏览器就可以运行系统,节省了安装客户端的时间,简化了用户的使用流程。用户可以实时进行业务的处理,简单快捷。B/S架构使得用户和系统的交互性较强、需要付出的成本更低。B/S架构更新服务器即可,不需要对具体的多个客户端进行操作更新,对系统的改进往往通过对网页的改进即可实现。本文使用C#编程语言和SQL Server 2008数据库实现最终的系统开发。
面向企业的网络舆情分析系统的设计与实现
这是一篇关于网络舆情,话题检测,情感分析的论文, 主要内容为随着互联网的快速发展,网民可以随时随地在互联网上发表自己对社会事物的态度和观点。互联网已经成为传播舆论的主要载体。网络舆情是民众对现实社会中的各种社会现象和问题在互联网上所表达的认知、态度、意见和情绪的总和,具有突发性、广泛性、指向性的特点。对于企业而言,负面或虚假的舆论信息会损害企业品牌形象,重挫企业业务,进而造成重大的经济损失。因此,及时收集和分析企业相关的舆论信息,解析用户观点,把握行业舆情走向,采取舆论应对措施,对企业的改进和发展有着非常重要的作用。本文针对以上问题并结合企业需求,设计并实现了一套面向企业的网络舆情分析系统。本系统根据功能划分为信息采集、数据分析、数据展示和系统管理四个模块。信息采集模块使用API和HTML两种解析方式对页面内容进行提取,并对数据进行了预处理。数据分析模块使用word2vec模型提取舆情信息文本的向量,使用改进后的Single-Pass聚类算法进行舆情话题的提取,使用朴素贝叶斯法进行舆情情感分析,并结合分析结果设计实现了舆情分级预警功能。数据展示模块使用多种方式将舆情分析结果直观展示给用户,并且提供舆情分析报告的编辑和下载功能。系统管理模块实现了对整个系统的用户、日志、设置等管理的功能。本文首先分析了网络舆情分析系统的研究背景和意义,然后阐述了网络舆情的研究现状以及相关技术,接着对系统进行需求分析、设计以及实现,最后对系统进行了全面测试。该系统采用前后端分离的开发模式。系统前端使用Vue.js框架开发系统视图层页面,使用Element UI和ECharts组件进行页面美化和数据展示。系统使用Spring Boot开发框架搭建后台应用,使用Scrapy爬虫框架采集信息数据。系统使用Redis实现缓存方案,使用Mongo DB和My SQL存储数据。目前该网络舆情分析系统已在公司通过测试并上线使用,为公司分析用户观点,应对突发舆情,维护市场形象,改进产品质量和提升服务品质提供了有效帮助。
企业舆情监控系统的设计与实现
这是一篇关于舆情监控,话题检测,话题跟踪,新词识别,B/S架构的论文, 主要内容为互联网的发展,特别是以微博、微信为载体的两微自媒体迅速发展,对政府、企业而言,舆情监控变得尤其重要。网络舆情的传播,特别是负面新闻的传播,速度是惊人的,给当事人造成了巨大的舆论压力,使其不得不去面对和处理。近年来,因网络事件造成的企业危机、个人危机层出不穷,因此建立一个舆情监控系统是十分必要的。本文涵盖的主要内容包括以下几个方面:(1)研究课题的研究背景及意义,深入了解本课题的国内外研究现状,充分介绍阐述本课题包括爬虫技术、文本处理技术、话题发现及话题追踪等技术,为课题的下一步研究奠定坚实基础;(2)本课题立足于企业舆情监控,对企业舆情监控系统进行调研分析,在课题下一步研究具备可行性的基础上,分析课题的建设目标及主要使用者,分析系统各个功能模块及系统主要用例,并从功能性与非功能性两个角度描述系统情况;(3)系统采用B/S架构,利用MVC模型进行开发,分析设计了系统的要功能模块,包括数据采集、数据处理、舆情分析、系统应用和系统管理等,并利用类图和时序图等多种UML架构对模块进行设计,最后通过E-R图和数据库表结构的方式对系统数据库进行设计;(4)舆情监控的核心除了数据的爬取,就是自然语言的算法处理,本文重点阐述了本系统中新词识别、话题检测及话题跟踪算法的设计及实现过程,并简要描述了算法的实现效果。(5)论文最后给出了系统的开发环境及实现效果图,同时为了验证系统的有效性,从功能和性能两个角度对系统进行了测试。根据系统运行的实际效果表明,系统能够满足其余舆情监控的实际需求。利用互联网舆情监测系统了解舆论走向,有助于企业改进自身产品质量、提高服务水平、辅助决策等具有重要的作用,因此本文的研究具有重要的现实意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://m.bishedaima.com/lunwen/52794.html