基于微博信息的北京地区房价趋势预测的关键技术研究
这是一篇关于房价预测,分词,主题建模,边界熵模型,PLSA模型的论文, 主要内容为随着机器学习与自然语言处理技术的快速发展,同时房价的快速增长成为当前社会的焦点问题,采用机器学习技术的房价趋势预测方法逐渐成为人们的研究热点。然而当前多数预测工作中,数据源主要采用金融领域相关客观指标数据,未能考虑人们主观因素对房价的影响。为此,本文尝试以新浪微博中个人发表的状态、回复等信息为基础数据,通过对基础数据进行分词、词性标注、主题建模、情感倾向识别等操作,提取了与房价趋势变化相关的各项主观倾向参数数据,建立了一个融合主观因素参数集的房价预测模型,并利用该模型设计并实现了一个房价趋势预测系统,提高了房价趋势预测的准确度。研究内容包括:(1)通过对网络广告中相关房产房源及周边信息进行人工汇总,确定面向房产领域主观态度信息的房产领域主题集合,并以主题的变化趋势与房价变化趋势间的相似性作为参数对实际房价变化的影响程度进行主题筛选,最终实现主观态度的提取。(2)针对分词过程中相关主题词汇无法正确识别的问题,通过将词汇与房产领域各相关主题中关键词的相似度作为词汇与各主题的相关程度对边界熵模型进行算法改进,并在此基础上引入条件随机场模型进行模型融合,实现了一种基于房产领域相关主题的微博文本分词方法。将该方法与现有分词进行对比测试,测试结果证明该方法更加快速、精确。(3)针对主题建模中相关主题识别能力差的问题,通过在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型中加入最大熵先验层筛选输入文本形成词干串序列,并引入Jaccard系数计算剩余单词相似矩阵,提出了一种面向房产领域的主题建模算法。将该算法与现有主题建模算法进行对比测试,测试结果证明该算法更加准确、高效。(4)针对微博内容不确定性强、内容杂糅的特点,通过模型选择、模型参数设计等方式设计了一个更适合微博内容的预测模型,并采用面向对象的设计思想,设计系统的总体框架,各个功能模块和相关类的设计,以B/S的网站架构为基础,采用JSP技术实现了整个预测系统。最后,通过选取近几年北京地区舆情情况及实际房价趋势变动情况,对本文提出的预测系统与其他现有房价趋势预测系统进行了对比测试。测试结果表明:本文的预测方法高效、全面,可自动化的完成基于主观因素的房价预测任务,且具有较高的预测准确度。
基于域内外知识迁移的推荐算法改进研究
这是一篇关于推荐系统,迁移学习,DeepFM模型,主题建模的论文, 主要内容为当今的互联网时代,信息技术在快速迭代,推荐系统致力于帮助人们解决信息过载等问题,提高信息处理的效率的同时,也存在一些既定的问题,例如数据稀疏性、冷启动等。常用的推荐算法有基于用户或基于项目的协同过滤推荐算法,矩阵分解等,以上算法都是基于用户项目评分矩阵产生推荐。由于用户评分的客观因素,用户项目评分矩阵往往会非常稀疏,使得推荐效果不佳,进而导致用户的推荐体验较差。为了对传统协同过滤推荐算法的效果进行改进,本文基于迁移学习的思想,在域内推荐和跨域推荐两个方面对传统模型做了改进:域内的推荐模型首先会根据用户评分质量将总体划分为高质量群组和低质量群组,以矩阵分解的协同过滤为基准,将高质量群组的物品隐向量迁移到低质量群组中,以提高整体的推荐效果;跨域的推荐模型根据迁移方向不同分为基于内容的迁移和基于模型的迁移,基于内容的迁移是将域之间的共有标签主题作为桥梁连接两个域来共享信息,基于模型的迁移则是以Deep FM模型为基准,将深度模型的参数在域之间共享。分别在域内和域外都改进了传统模型后,以线性加权的方式结合两部分的模型预测结果,得到最终的基于域内外知识迁移的推荐模型(Transfer Learning Recommendation consider knowledge inside and outside the domain,TLRec-CKIOD)。为了验证本文所提出模型的效果,实证分析部分首先进行了域内的用户评分质量实验,此实验证明了在域内进行子群组间的迁移有利于提升整体的推荐效果,而后进行了域外的迁移基准模型选择实验,实验证明Deep FM模型优于FM模型、DNN模型,且其运用了迁移后的推荐效果优于单领域的推荐效果,最后进行了域内外知识迁移的模型效果验证,将本文提出的TLRec-CKIOD模型与传统的协同过滤推荐算法、域内和域外未结合时各部分改进后的推荐算法进行对比,结果显示TLRec-CKIOD模型的推荐效果要好于其他几种对比模型。最后通过该推荐算法,对特定用户产生的top10推荐列表具有较好的准确率和召回率。
基于微博信息的北京地区房价趋势预测的关键技术研究
这是一篇关于房价预测,分词,主题建模,边界熵模型,PLSA模型的论文, 主要内容为随着机器学习与自然语言处理技术的快速发展,同时房价的快速增长成为当前社会的焦点问题,采用机器学习技术的房价趋势预测方法逐渐成为人们的研究热点。然而当前多数预测工作中,数据源主要采用金融领域相关客观指标数据,未能考虑人们主观因素对房价的影响。为此,本文尝试以新浪微博中个人发表的状态、回复等信息为基础数据,通过对基础数据进行分词、词性标注、主题建模、情感倾向识别等操作,提取了与房价趋势变化相关的各项主观倾向参数数据,建立了一个融合主观因素参数集的房价预测模型,并利用该模型设计并实现了一个房价趋势预测系统,提高了房价趋势预测的准确度。研究内容包括:(1)通过对网络广告中相关房产房源及周边信息进行人工汇总,确定面向房产领域主观态度信息的房产领域主题集合,并以主题的变化趋势与房价变化趋势间的相似性作为参数对实际房价变化的影响程度进行主题筛选,最终实现主观态度的提取。(2)针对分词过程中相关主题词汇无法正确识别的问题,通过将词汇与房产领域各相关主题中关键词的相似度作为词汇与各主题的相关程度对边界熵模型进行算法改进,并在此基础上引入条件随机场模型进行模型融合,实现了一种基于房产领域相关主题的微博文本分词方法。将该方法与现有分词进行对比测试,测试结果证明该方法更加快速、精确。(3)针对主题建模中相关主题识别能力差的问题,通过在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型中加入最大熵先验层筛选输入文本形成词干串序列,并引入Jaccard系数计算剩余单词相似矩阵,提出了一种面向房产领域的主题建模算法。将该算法与现有主题建模算法进行对比测试,测试结果证明该算法更加准确、高效。(4)针对微博内容不确定性强、内容杂糅的特点,通过模型选择、模型参数设计等方式设计了一个更适合微博内容的预测模型,并采用面向对象的设计思想,设计系统的总体框架,各个功能模块和相关类的设计,以B/S的网站架构为基础,采用JSP技术实现了整个预测系统。最后,通过选取近几年北京地区舆情情况及实际房价趋势变动情况,对本文提出的预测系统与其他现有房价趋势预测系统进行了对比测试。测试结果表明:本文的预测方法高效、全面,可自动化的完成基于主观因素的房价预测任务,且具有较高的预测准确度。
推荐系统中多源信息融合和隐式反馈挖掘的研究
这是一篇关于推荐系统,协同过滤,矩阵分解,打分预测,主题建模,社会推荐系统,异构信息源,隐式反馈的论文, 主要内容为通信技术和网络媒体的发展,产生了大量的信息、:新闻,音乐,视频,应用软件等;为克服由此带来的信息过载问题,研究者们就对如何构建支撑用户做出个性化决策的信息系统产生了兴趣,并提出了多种信息过滤算法,这些系统(算法)统称为推荐系统(算法)。由于推荐系统能够为广大用户提供他们感兴趣和有用的物品,给企业带来营收、为平台增强功能同时也提升了用户满意度,使得推荐系统在电子商务、流媒体平台和社交网络与社会媒体等领域有广泛的应用。由于传统的协同过滤推荐方法只利用了用户对物品的浅层打分信息,使得推荐性能深受冷启动和数据稀疏性的影响。因而目前一个重要方向是增加额外的数据源:一方面,是增加文本信息,如用户对产品的评论数据;另一方面,是增加社交关系信息,如用户在社会网络中形成的信任关系链。然而,如何将文本信息和社交关系信息整合到基于矩阵分解的协同过滤方法中,还缺乏高效的融合方法。另一个重要方向是深度利用有限的信息,如挖掘打分信息中的隐式反馈。但是如何把横向增加额外数据源与纵向深挖有限信息两个重要方向结合起来以进一步提高推荐性能,相关工作据作者所知还没有。本文对推荐系统中的多源信息融合和隐式反馈挖掘进行了研究,在此基础上提出了两个推荐模型,主要工作包括:1.提出一个基于多源信息融合的高效综合方法,能够同时建模打分信息、文本信息和社交网络信息。以往利用额外数据源的方法通常只加入了一种额外信息,比如只加入了文本信息,或者只加入了社交关系信息,缺乏一个高效的综合方法。针对这一问题,本文通过基于矩阵分解的协同过滤基本模型,建立了打通文本信息和社交关系信息的融合方法。该方法不仅具有优化目标上的统一性,在两个真实数据集的评估上都有实践上的性能提升。2.提出一个基于隐式反馈挖掘的扩展融合模型,能够在深挖纵向打分信息的同时融合横向的额外数据源。以往利用隐式反馈信息的方法都只考虑了如何纵向深挖打分信息,而忽略了融合横向的额外数据源。针对这一问题,本文通过多源信息融合这一综合方法,在此基础上建立了能深挖隐式反馈信息的扩展模型。通过此方法,本文首次实现了横向多源数据融合和纵向隐式反馈挖掘两个克服冷启动和数据稀疏性问题的重要方向的汇合。所提出的融合模型和扩展融合模型在两个较大规模的数据集上做了实验验证,并对两个模型的所含组件和超参敏感性进行了详细分析。
推荐系统中多源信息融合和隐式反馈挖掘的研究
这是一篇关于推荐系统,协同过滤,矩阵分解,打分预测,主题建模,社会推荐系统,异构信息源,隐式反馈的论文, 主要内容为通信技术和网络媒体的发展,产生了大量的信息、:新闻,音乐,视频,应用软件等;为克服由此带来的信息过载问题,研究者们就对如何构建支撑用户做出个性化决策的信息系统产生了兴趣,并提出了多种信息过滤算法,这些系统(算法)统称为推荐系统(算法)。由于推荐系统能够为广大用户提供他们感兴趣和有用的物品,给企业带来营收、为平台增强功能同时也提升了用户满意度,使得推荐系统在电子商务、流媒体平台和社交网络与社会媒体等领域有广泛的应用。由于传统的协同过滤推荐方法只利用了用户对物品的浅层打分信息,使得推荐性能深受冷启动和数据稀疏性的影响。因而目前一个重要方向是增加额外的数据源:一方面,是增加文本信息,如用户对产品的评论数据;另一方面,是增加社交关系信息,如用户在社会网络中形成的信任关系链。然而,如何将文本信息和社交关系信息整合到基于矩阵分解的协同过滤方法中,还缺乏高效的融合方法。另一个重要方向是深度利用有限的信息,如挖掘打分信息中的隐式反馈。但是如何把横向增加额外数据源与纵向深挖有限信息两个重要方向结合起来以进一步提高推荐性能,相关工作据作者所知还没有。本文对推荐系统中的多源信息融合和隐式反馈挖掘进行了研究,在此基础上提出了两个推荐模型,主要工作包括:1.提出一个基于多源信息融合的高效综合方法,能够同时建模打分信息、文本信息和社交网络信息。以往利用额外数据源的方法通常只加入了一种额外信息,比如只加入了文本信息,或者只加入了社交关系信息,缺乏一个高效的综合方法。针对这一问题,本文通过基于矩阵分解的协同过滤基本模型,建立了打通文本信息和社交关系信息的融合方法。该方法不仅具有优化目标上的统一性,在两个真实数据集的评估上都有实践上的性能提升。2.提出一个基于隐式反馈挖掘的扩展融合模型,能够在深挖纵向打分信息的同时融合横向的额外数据源。以往利用隐式反馈信息的方法都只考虑了如何纵向深挖打分信息,而忽略了融合横向的额外数据源。针对这一问题,本文通过多源信息融合这一综合方法,在此基础上建立了能深挖隐式反馈信息的扩展模型。通过此方法,本文首次实现了横向多源数据融合和纵向隐式反馈挖掘两个克服冷启动和数据稀疏性问题的重要方向的汇合。所提出的融合模型和扩展融合模型在两个较大规模的数据集上做了实验验证,并对两个模型的所含组件和超参敏感性进行了详细分析。
基于深度学习和主题建模的事件发现研究与应用
这是一篇关于事件,新事件发现,主题建模,特征提取,系统应用的论文, 主要内容为当今互联网的高速发展,催生了众多的网络应用,同时高速的网络发展带来巨大的新闻数据量。与此同时,大数据量也给政府组织及其其他组织带来了在大数据背景下事件建模相关技术限制,无法快速的从海量的数据中获取新闻事件相关知识,难以实现数据的互通共享,因此如何对非结构化新闻文本进行有效整理变得十分重要。针对以上问题,本文针对非结构化文本,提出了基于深度学习和主题建模的事件建模众包学习方法,对非结构化新闻文本进行事件建模研究并从数据获取、新事件发现、多特征融合的新事件主题提取、应用系统构建等角度对研究进行充分阐述。本文主要进行基于深度学习和主题建模的新事件发现研究与应用,通过多种技术的研究应用到新闻事件建模领域,用以实现政府组织及其他组织对非结构化新闻文本的充分利用。首先,基于整体研究的需求分析,分析要获取的相关数据,研究构建基于Scrapy框架的数据爬虫系统进行数据获取;然后,对获取的数据进行初步的整理,研究非结构化文本的量化方法,提出基于BERT、注意力机制的双向长短记忆网络构建新事件发现模型;其次,对于新事件发现模型检测出的新事件,提出基于多特征融合的新事件主题聚类分析用以提取新事件主题,多特征融合包括实体特征、事件触发词特征、主题热词特征。对于主题提取的结果集加入到新事件发现模型实现新事件发现模型的不断学习更新的众包学习的方法;最后,研究采用NoSQL数据库作为事件存储解决方案在提高效率的同时也克服了传统存储解决方案的缺点,并在数据获取、新事件发现、新事件主题建模分析研究基础上研究开发事件建模应用系统实现对上述研究的系统化应用。本文从政府组织角度出发,以非结构化数据为基础从数据获取、新事件发现、新事件主题建模分析、事件建模应用系统构建等方面充分阐述了基于深度学习和主题建模的事件发现研究与应用的研究过程。基于上述研究突破了事件建模的技术障碍,构建了适合政府治理新模式的建模分析算法与分析方法,对于政府及其其他组织在大数据背景下分析热点事件具有重大意义。
基于域内外知识迁移的推荐算法改进研究
这是一篇关于推荐系统,迁移学习,DeepFM模型,主题建模的论文, 主要内容为当今的互联网时代,信息技术在快速迭代,推荐系统致力于帮助人们解决信息过载等问题,提高信息处理的效率的同时,也存在一些既定的问题,例如数据稀疏性、冷启动等。常用的推荐算法有基于用户或基于项目的协同过滤推荐算法,矩阵分解等,以上算法都是基于用户项目评分矩阵产生推荐。由于用户评分的客观因素,用户项目评分矩阵往往会非常稀疏,使得推荐效果不佳,进而导致用户的推荐体验较差。为了对传统协同过滤推荐算法的效果进行改进,本文基于迁移学习的思想,在域内推荐和跨域推荐两个方面对传统模型做了改进:域内的推荐模型首先会根据用户评分质量将总体划分为高质量群组和低质量群组,以矩阵分解的协同过滤为基准,将高质量群组的物品隐向量迁移到低质量群组中,以提高整体的推荐效果;跨域的推荐模型根据迁移方向不同分为基于内容的迁移和基于模型的迁移,基于内容的迁移是将域之间的共有标签主题作为桥梁连接两个域来共享信息,基于模型的迁移则是以Deep FM模型为基准,将深度模型的参数在域之间共享。分别在域内和域外都改进了传统模型后,以线性加权的方式结合两部分的模型预测结果,得到最终的基于域内外知识迁移的推荐模型(Transfer Learning Recommendation consider knowledge inside and outside the domain,TLRec-CKIOD)。为了验证本文所提出模型的效果,实证分析部分首先进行了域内的用户评分质量实验,此实验证明了在域内进行子群组间的迁移有利于提升整体的推荐效果,而后进行了域外的迁移基准模型选择实验,实验证明Deep FM模型优于FM模型、DNN模型,且其运用了迁移后的推荐效果优于单领域的推荐效果,最后进行了域内外知识迁移的模型效果验证,将本文提出的TLRec-CKIOD模型与传统的协同过滤推荐算法、域内和域外未结合时各部分改进后的推荐算法进行对比,结果显示TLRec-CKIOD模型的推荐效果要好于其他几种对比模型。最后通过该推荐算法,对特定用户产生的top10推荐列表具有较好的准确率和召回率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://m.bishedaima.com/lunwen/48402.html