基于WEW-LDA模型的专利挖掘方法及应用
这是一篇关于专利挖掘,知识图谱,链路预测,LDA,AGV的论文, 主要内容为当下社会进入了前所未有的高速发展期,科技创新活动开始呈井喷趋势增长,成为了推动国家经济增长和提升国家竞争力的第一推动力。同时,随着技术迭代速度的不断提高,各个行业内的竞争也愈演愈烈,创新也成为了企业生存发展、保持市场竞争力的决定性因素。专利文献囊括了全世界每年90%~95%的最新科研成果,从海量的专利数据中挖掘出与技术发展相关的情报信息,以此来梳理技术体系发展状况并合理预测出未来走势,可以为企业和国家制定创新发展战略提供帮助。传统的专利研究多围绕计量统计进行,忽略了文本中隐藏的重要信息,而近些年兴起的专利文本挖掘研究中,存在专利文本特征提取维数大、未充分考虑文本中语义关联等问题,不能对专利文献进行深度、系统地分析。本文在对专利外部结构化信息进行定量分析的基础上,针对专利的文本非结构化数据,构建了面向主题的中级层面和面向异常专利微观层面的专利挖掘方法。首先,引入无监督机器学习的LDA模型,再结合专利文本的独有特征对传统模型进行了一定程度的改进,提出了WEW-LDA模型,以实现对海量专利文本中技术主题的自动识别,并通过实验证明了该模型在提高主题可读性及划分合理性上的优势。然后,基于WEW-LDA模型输出的主题数据构建出了主题网络和专利地图等可视化知识图谱。其中,主题网络能够从全局的文本语义信息出发,分析各技术主题间的外部关联关系,通过主题网络可清晰地展现领域内技术体系的结构,同时将网络在生命周期的时间维度上展开后,结合社会网络分析及链路预测算法可挖掘出高影响力重点主题转移过程、技术的整体演化过程及未来技术主题间的关联可能性;专利地图可用来侦测蕴含新技术的异常专利,通过对异常专利的筛选、梳理和总结,可对技术未来的发展做出合理的预见。最后,将本文提出的方法体系运用到了AGV领域,对该领域中的核心主题转移过程、技术演化、技术组合机遇及未来发展趋势做了系统的分析,研究结果可以为AGV相关企业及国家政府的创新发展规划作出指导。
基于改进Word2vec-GLDA的专利挖掘方法及应用
这是一篇关于专利挖掘,词向量,主题概率模型,知识图谱,智能制造的论文, 主要内容为面对全球激烈的竞争及技术垄断的局势,积极引导科技创新活动开展以寻求技术机会,成为企业及国家维持、提高市场竞争力的重要战略任务。专利文档作为创新活动产出的有效证明材料,囊括了全球不同国家90%以上的创新实践成果。通过专利数据挖掘可以为企业和国家制定创新发展战略提供重要情报信息。传统的专利分析研究多使用计量统计的方法,忽略了专利文本中的核心技术表达。随着深度学习和自然语言处理技术的发展和成熟,文本挖掘成为热门的研究方向。在专利文本挖掘领域,由于专利文本半结构化及长短文本结合的特征,直接应用深度学习相关模型进行专利文本的深层次分析,往往效果不佳。基于以上原因,本文以专利文本为挖掘对象,考虑专利的语义和文本特征,提出了适用于专利领域的文本挖掘方法。本文迁移学习短文本挖掘模型的思想,将IPC分类号与专利标题这类核心主题类短文本进行主题词拓展,并结合词向量Word2vec与GLDA(Gaussian Latent Dirichlet Allocation,GLDA)构建深度主题特征提取模型。通过GLDA模型为专利文档的关联特征建模,使用Word2vec词向量为词汇间的相似性建模,从而使模型能够同时表达文本的全局特征和局部特征。同时,通过主题词汇拓展有效区分了不同词汇的主题表达贡献度,突出专利文本中的关键主题信息,有效处理了专利标题等主题语句存在的稀疏性问题,提高了文本向量表示的准确性。实验结果证明,本文提出的基于主题词拓展的改进Word2vec-GLDA主题概率模型在专利领域的文本挖掘任务中具有相对优势。接着,基于特征主题挖掘模型获得的专利及主题向量数据,构建主题网络并从专利综合质量以及主题网络影响力两方面识别核心技术主题,进一步对相关领域的技术发展路径做出判断。同时,在专利文本向量的基础上,计算专利的相似度矩阵,构建可视化专利地图等知识图谱,并通过对专利地图中的异常专利进行筛选、梳理和总结,可对技术未来的发展做出合理的预测。最后,将以上提出的专利挖掘方法运用到智能制造领域,对该领域中的核心专利、技术演化、技术的未来发展趋势做了系统的分析,研究结果可以为智能制造产业的创新发展做出规划指导。
基于深度语义学习的专利挖掘方法及应用
这是一篇关于专利挖掘,深度学习,SAO-C,知识图谱,人工智能的论文, 主要内容为当下社会进入了前所未有的高速发展期,科技创新活动呈井喷趋势增长,成为推动国家经济增长和提升国家竞争力的第一动力。专利文献由于囊括了全球每年90%~95%的最新科技成果,是蕴含技术创新方案的重要知识载体,因此基于专利数据从海量的信息中挖掘出与技术相关的情报信息,可以为企业和国家制定创新发展战略提供帮助。传统的专利分析研究多使用计量统计的方法,忽略了文本中隐藏的重要信息,而近些年兴起的专利文本挖掘研究中,则存在专利文本特征提取不完整、未充分考虑文本中语义关联等问题,不能对专利文献进行深度的分析。基于以上原因,本文以专利文本为挖掘对象,考虑了专利的语义和文本特征,分别从特征提取和专利文本向量表示两个方面,提出了适用于专利领域的文本挖掘方法。其中,在特征提取上,本文选择SAO-C(Subject,Action,Object,Complement)结构作为专利的技术特征,并针对专利文本特有的语言特点,以及现有方法在提取专利领域SAO-C结构上的不足,提出了基于深度学习的SAO-C结构提取模型:Ro BERTa+BiLSTM+MLP,并充分利用大型公开数据集和部分标注的专利数据作为训练集,提高了模型的泛化能力,实现了良好的领域迁移效果。而在专利文本向量表示上,创新性提出了Doc-SAO模型,通过使用SAO-C结构向量和标题向量分别对专利文本向量进行进一步的增强和补充更新,既保留了原始文本的语义信息,又突出强调了专利SAO-C中所蕴含的重要技术信息,最终获得了包含丰富语义信息的专利文本表示。实验结果证明,以上深度学习模型在专利领域的文本挖掘任务中均具有相对优势。接着,基于获得的专利文本向量,可以计算专利的相似度矩阵,进而构建专利网络和专利地图等知识图谱。其中,在专利网络中,通过提出的核心专利识别指标体系,可以识别出重要的核心技术以及技术的整体演化过程;在专利地图中,通过对专利技术空位的异常专利进行筛选、梳理和总结,可对技术未来的发展做出合理的预见。最后,将以上提出的专利挖掘方法运用到人工智能领域,对该领域中的核心专利、技术演化、专利权人合作情况、技术的未来发展趋势做了系统的分析,研究结果可以为人工智能产业的创新发展作出规划指导。
面向设计任务的船用发动机专利挖掘和推荐方法研究
这是一篇关于专利挖掘,知识重用,推荐算法的论文, 主要内容为知识是船用发动机研发的重要支撑,专利知识作为技术的载体,其数量是海量庞杂的。研发中研发人员需要快速准确地获取和设计任务相关的信息以便于研发,是以往知识的利用为简单的主动搜索,导致这一过程繁琐低效。为了解决船用发动机研发过程中知识重用效率低下的问题,本文进行专利主题挖掘和推荐算法的相关研究,本文主要进行以下方面内容的研究:首先,由于专利都是由非结构化的文本描述,本文首先对专利文本的主题进行挖掘。通过对专利文本中的术语进行相似度的度量,进行术语的语义聚类,发现术语之间的语义关联,在主题挖掘中进行术语到其对应语义类别标签的替换。通过改进的主题模型解决传统的主题模型挖掘的结果中主题稀疏和可读性差的问题,以服务于后续的任务。其次,需要确定可能满足任务需求的专利的范围,减少推荐中的无效计算。针对专利的人工标签稀少的问题,建立人工标签预测模型以扩充专利有效特征,实现专利的有效表示;然后组合主题和人工特征构建专利深度因子分解模型,挖掘粗细粒特征之间的多阶深层次关系,得到特征与专利对设计任务适用与否的关系,对海量新专利分析以确定可以推荐的专利的范围。再次,研究面向设计任务的专利推荐排序算法。为了提高基于物品的协同过滤算法中专利关联度计算准确度,改进专利相似度度量并引入评分惩罚机制来实现对专利关联度计算方法的改进。首先,针对传统方法进行专利相似度度量的效果差的问题,采用嵌入训练分析任务中专利评价数据,提出专利的分布式表示方法,进行专利的相似度计算;然后,考虑将内容质量差的专利过滤,通过综合考虑专利具体的评分情况,得到评分惩罚因子,综合以上研究得到新的关联度计算方法。针对具体任务,在满足适用性要求的专利范围内计算未阅读专利和已评分专利的关联度并排序,推荐高排名专利。最后,本研究还进行船用发动机专利推荐系统软件的原型系统开发,分析实际工程中所需要的功能,进行本研究内容的算法部署和方便研发人员操作的软件界面的编写,最终给船用柴油机研发提供技术支持。
基于知识图谱的专利挖掘方法及其应用
这是一篇关于专利挖掘,技术预见,Doc2Vec,TextRank,自然语言处理的论文, 主要内容为近年来随着与全球化进程的推进,科学技术飞速发展,各国的科技创新活动愈加活跃,发展科技成为提高国际竞争力的重要手段。科技创新活动需要较大规模的资金、人员投入,因此需要将有限的资源优先集中于具有较大潜力的技术方向,技术预见是解决该问题的有效途径,针对新兴产业以及前沿技术的预见方法逐渐成为支持政府制定产业技术规划以及企业面向未来进行战略布局研发决策的重要方法。但是,当前业界所广泛采用的产业技术预见方式仍然是基于专家经验的定性方式,技术预见的结论比较容易受到专家个人水平以及主观思维的影响,有失客观性以及可靠性。采用定量分析的方法相比定性分析方式更加科学且准确。而专利文献囊括了全世界每年90%~95%的最新科研成果,蕴含了大量规范化的技术信息并且可以自由利用,是进行技术预见分析的重要材料。本文以大量的专利数据为研究对象,不仅对专利的外部结构化信息进行了定量分析,并且使用了文本挖掘技术,针对专利信息中的题目、摘要等非结构化数据当中的语义信息进行了深层次、系统性的研究。首先采用了可以处理无标签数据的Doc2Vec模型并且针对专利数据的特点对模型进行改进,提出了KWE-Doc2Vec模型并通过实验验证了其准确性和有效性。使用该模型提取专利文本的编码表示,专利的语义表征更加准确,可获得更为精确的专利相似度,以专利相似度矩阵为基础绘制了专利网络和专利地图。此外,本文还借鉴了Text Rank算法的思想,将其应用到专利数据中,用于提取出专利网络中的核心文献。通过分析专利网络并结合提取出的核心专利,可以梳理出技术发展路径,对技术的发展趋势做出判断;通过对专利地图的空位进行分析可以识别出未来潜在的技术机遇。最后,将本文提出的基于专利的技术预见分析框架结合自然语言处理领域的具体发展状况进行实证研究,识别出该领域的技术发展路径以及对未来的技术机遇进行了分析和预测,为政府决策的制定、企业研发方向战略规划提供有力的决策支持。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/56283.html