一种企业画像系统的设计与实现
这是一篇关于企业画像,标签提取,数据挖掘,短文本分类,关键词提取的论文, 主要内容为随着市场经济的髙速发展,越来越多的企业注册成立,由此产生了海量的企业运营数据。与此同时,无处不在的商业风险,企业在挑选项目、寻求合作伙伴时需要了解合作方的背景信息、风险信息、经营信息、对外投资信息、知识产权信息等信息作为合作的参考指标,政府需要时刻监管企业,同时,各行各业的网民也有了解企业信息的需要。针对上述问题,依托于河北省科学院应用数学研究所的企业征信信用服务平台,本文提出设计一种企业画像系统。展示企业的背景信息、企业风险信息、企业经营信息、对外投资信息、知识产权信息。针对海量的企业运营数据,使用数据挖掘技术对企业信息进行分析和研究,对企业信息进行维度分解,从每一维度对企业信息进行标签提取,为每个企业绘制企业画像标签图。将企业和企业间的投资关系,人物和企业间的任职关系和股东关系进行可视化的展示。具体工作如下:(1)需求分析。分析企业画像的研究现状,对企业信息进行维度分解,针对每一维度进行标签的定义。制定了系统的功能性需求分析,绘制了基于后台管理员和普通用户两种角色的用例图,并进行了详细的用例描述。(2)使用数据挖掘技术进行企业画像的标签提取。通过对标签相关概念和标签化技术难点的理解,从企业基本属性、企业经营状况、企业风险信息三大维度来刻画企业画像,最终定义了十三个标签。其中,使用TextRank算法对企业经营范围进行关键词提取得到企业的经营范围标签;使用随机梯度下降分类算法对企业的经营范围建模得到企业的行业标签。(3)设计并实现企业画像系统。在Windows系统环境下,前台采用B/S架构,借助Django框架,按照MTV的分层设计思想,以模块化方式实现系统各模块功能,使用HTML5、JavaScript、CSS等技术完成页面设计,实现了用户对企业信息的多维浏览、企业画像标签图的可视化、人物和企业关系图的可视化。后台使用Xadmin框架搭建后台管理系统,实现了后台管理人员对企业信息的维护和用户的管理。
基于商品标题的多平台联合分类问题研究
这是一篇关于短文本分类,主题模型,神经网络的论文, 主要内容为电子商务平台为商家和客户提供了便捷的交易方式,商家独立经营商品和选择分类标签,用户按照商品分类或是关键字查询商品。复杂的商品种类和快速变化的商品信息不仅给用户选择带来麻烦,也给监管部门统计分析和第三方平台提供统一查询服务带来困难,因此需要面向多平台进行统一商品分类。考虑到电商平台上商品数量巨大,且商品信息包含大量图片和文字描述,基于商品标题进行多平台联合分类是现实应用的关键问题。主要困难包括:由于商品标题包含了复杂的专有名词、不断涌现的技术词汇和性能指标、带有强烈个体感受的商品特点描绘等不规范词汇,无法用传统的词向量技术进行语义分析,也无法对这些词语堆砌而成的短文本进行句子层面的语法分析;而且,商家自行标注商品分类,不仅相同商品在同一平台有不同标注,而且不同平台的分类标准也不一致,增加了标签的混乱度,对分类模型的学习带来困难。为了解决基于商品标题的分类标注这些挑战,本文主要工作如下:首先,针对碎片化文本的语义表示问题,提出了基于主题模型的概率图谱特征抽取方法。根据商品标题中的词汇出现频率和联合出现情况,学习不同类型词汇在隐式主题空间上的概率表示;通过主题和词汇空间的联合概率采样得到商品的语义表示。考虑到主题模型的概率生成特点,多次采样得到文本的概率图谱特征,这种混合采样结果,能够反映商品在多隐式主题上的关联性,还能通过词汇的共现情况,动态学习新词在隐式主题空间上的概率分布,使得商品标题语义建模对于不断涌现的技术词汇更具包容性。其次,针对商品概率图谱表示,提出了基于深度学习的多分类模型,采用卷积神经网络和多层感知网络学习主题之间的深层语义关联关系,选择softmax作为输出层的激活函数;采用dropout机制防止过拟合现象,提高了模型的健壮性。针对商品分类标签的混乱情况,提出了层次化分类的标签语义约束关系,对于预测结果进行约束条件下的标签层次化传播,以满足分类标签的语义一致性,还能减少同类商品的标签差异性对模型学习的负面影响。针对多平台分类标准不一致问题,提出了基于映射关系的统一分类标注方法。选择同时出现在不同平台上的样本数据,独立计算其在各自平台上的分类标签的概率分布;分别采用线性和非线性映射模型学习不同分类目录之间的关联关系,给出统一分类标签建议;针对新的商品标题,分别预测其在不同平台分类目录上的标签信息,实现多平台商品联合分类。本文工作与浪潮集团有限公司合作,采用真实数据集进行实验,辅助国家统计局进行电商零售发展指数分析、经济趋势预测等任务。借助浪潮卓数大数据平台采集主流电商平台的商品数据,包括京东商城数据集、天猫商城数据集和亚马逊商城数据集等。通过不同层面的分析对比实验,验证了本文模型在解决差异分类标准和标注不准确问题上比其他方法更具优势;详细分析了不同参数设置以及模型的不同部分对性能的影响;最后,详细分析了分类标签的语义关联性,给出了目录分类的改进建议。
基于BERT的商品分类方法研究
这是一篇关于商品分类,短文本分类,BERT,TextCNN,TextRCNN的论文, 主要内容为根据GPC(Global Product Classification)分类标准,商品类别有几千种,实现快速准确的商品自动分类可以有效减轻工作人员负担。商品分类可通过商品图片、商品名称以及商品描述信息进行分类,本文通过商品名称对商品进行分类,由于商品名称属于文本且长度较短,因此本文着重研究对短文本分类方法改进并应用于商品分类任务。本文选择BERT模型进行微调并将BERT和其他模型结合应用于商品分类任务,所做主要工作如下:(1)微调BERT并应用于商品分类任务。重点研究BERT模型结构及工作原理,通过对BERT模型进行微调用于商品分类任务,并在自制数据集和北大开放研究数据平台获取的电商数据集上训练BERT模型和其他基准模型,在进行比较后,得出BERT模型相比于其他基准模型在商品分类任务的泛化能力更强的结论。(2)将BERT模型与TextCNN结合缓解微调后的BERT模型在商品分类任务存在的灾难性遗忘问题。TextCNN使用双通道输入,第一个通道采用BERT模型词嵌入得到的词向量作为输入,该词向量不会随着训练而更新;第二个通道采用Word2Vec词嵌入方式得到的词向量作为输入,该词向量作为参数会随着网络的训练不断更新,以此弥补BERT模型词嵌入过程中遗忘的信息。通过实验结果可知BERT-TextCNN的泛化能力好于微调后的BERT模型。(3)将BERT模型与TextRCNN结合缓解微调后的BERT模型在商品分类任务存在的灾难性遗忘问题。TextRCNN采用Bi LSTM,由于LSTM具有长时记忆能力,可以选择记忆序列在不同状态下的信息,因此可缓解BERT模型在商品分类任务中存在的灾难性遗忘问题。通过实验结果可知BERT-TextRCNN模型在商品分类任务的泛化能力最强。(4)实现商品自动分类系统。本文基于Spring Boot框架,接入通过Flask框架部署BERT-TextRCNN模型提供的分类接口,设计与实现了商品批量自动分类系统。
融合知识库统计信息与概念信息的短文本分类方法
这是一篇关于短文本分类,知识库,加权方案,统计知识,概念知识,卷积神经网络,卷积核的论文, 主要内容为短文本分类作为自然语言处理中一项关键且基础性的研究,在推荐系统、问答系统、情感分析等领域发挥着重要作用。在网络信息时代,短文本是进行日常交流和信息共享过程中不可或缺的载体,具有长度短、句法不规范、语义稀疏且缺乏上下文背景知识等特点。针对这些问题,研究者们尝试通过统计信息来增强数据集的分类特征表示,例如用TF-IDF加权算法来增强有助于分类的特征项表示,而减弱无用特征项的表示。但单个小数据集本身的统计信息不能有效刻画特征项的重要程度,而利用规模较大的知识库(如维基百科知识库,谷歌知识库)的统计信息来增强自身语义特征是一种可尝试的方法。再者,之前的研究大多是针对词嵌入模型和分类模型进行改进,忽略了短文本数据集表达能力有限、语义稀疏且词语本身具有歧义性的特点,如果能够从数据集以外的知识库中获取先验知识来改善数据集的表达能力,那么对短文本分类将起着事半功倍的作用。综合以上发现,本文借助了维基百科知识库的统计信息,提出了两种特征加权方案,来刻画特征项的重要程度,增强样本表达语义的能力。进一步地,本文利用了现有知识库获取短文本的相关概念知识来改善文本缺乏背景知识的问题。具体地,本文主要工作内容如下:(1)基于大规模知识库中的统计知识能够有效刻画词语的重要程度这一思想,统计了维基百科知识库的词频,以获得大规模知识库的统计知识。(2)基于(1)中获取的统计知识,本文提出了两种特征加权方案,并通过实验证明这两种加权方案是有效的。(3)借助了Probase知识库获取知识库中短文本单词的相关概念,来丰富词语的表达,改善词语的歧义性,在一定程度上解决缺乏背景知识的问题。(4)综合了维基百科知识库的统计知识和Probase知识库的概念知识,在卷积神经网络(CNN)模型的基础上提出了CAE-CNN模型,并通过实验结果证明该模型是有效的。(5)基于深度学习方法提出了有关CAE-CNN模型的六种变体方法,通过将这六种变体方法与CAE-CNN方法进行实验结果对比和分析,证明了这六种变体方法在提升短文本分类效果上是具有一定竞争力的。
基于融合语义和BiLSTM的短文本分类技术研究
这是一篇关于短文本分类,特征提取,word2vec,对抗训练,LSTM,注意力机制的论文, 主要内容为在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中抽取人类所需的信息是目前文本分类领域面临的一大难题;研究快速、灵活、高效、低耗的短文本内容提取策略是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。影响文本分类效果的因素有很多,本文主要从特征提取和分类器的选择两个方面来进行改进。本文在研究分析和总结特征选择和深度学习模型Bi LSTM原理的基础上,对运用特征选择和深度学习模型解决文本分类问题做了深入研究,本文的主要研究工作如下:(1)针对传统TF-IDF特征选择函数缺乏语义的问题,本文定义并引入权重系数和长度系数,并结合改进的word2vec模型,构建了融合语义的特征选择函数。其中改进的word2vec解决了传统word2vec只要有冗余的词向量,就会使计算发生差错,从而使整个文本的表达出现差错的问题,提高了准确率。同时改进的word2vec可以通过距离来表征语义相似度,具有一定的语义性,并可以将词映射到低维向量中,避免了维度灾难,提高了准确率。(2)针对短文本长度较短,文本蕴含的信息量较少,深度学习模型易受到干扰导致分类性能差的问题,本文提出一种在双向长短期记忆网络的基础上结合注意力机制和对抗训练的多层级短文本分类模型,双向长短时记忆时间递归神经网络(Bi LSTM)每个序列向前和向后分别是两个LSTM层,弥补了LSTM缺乏下文语义信息的不足。注意力机制(Attention)解决了传统的方法直接把Bi LSTM层每个时刻对应的更新输出向量求和取平均值,导致分类精度不高的问题。对抗训练是一种正则化的方法,可以提高分类模型的鲁棒性。
基于BERT的商品分类方法研究
这是一篇关于商品分类,短文本分类,BERT,TextCNN,TextRCNN的论文, 主要内容为根据GPC(Global Product Classification)分类标准,商品类别有几千种,实现快速准确的商品自动分类可以有效减轻工作人员负担。商品分类可通过商品图片、商品名称以及商品描述信息进行分类,本文通过商品名称对商品进行分类,由于商品名称属于文本且长度较短,因此本文着重研究对短文本分类方法改进并应用于商品分类任务。本文选择BERT模型进行微调并将BERT和其他模型结合应用于商品分类任务,所做主要工作如下:(1)微调BERT并应用于商品分类任务。重点研究BERT模型结构及工作原理,通过对BERT模型进行微调用于商品分类任务,并在自制数据集和北大开放研究数据平台获取的电商数据集上训练BERT模型和其他基准模型,在进行比较后,得出BERT模型相比于其他基准模型在商品分类任务的泛化能力更强的结论。(2)将BERT模型与TextCNN结合缓解微调后的BERT模型在商品分类任务存在的灾难性遗忘问题。TextCNN使用双通道输入,第一个通道采用BERT模型词嵌入得到的词向量作为输入,该词向量不会随着训练而更新;第二个通道采用Word2Vec词嵌入方式得到的词向量作为输入,该词向量作为参数会随着网络的训练不断更新,以此弥补BERT模型词嵌入过程中遗忘的信息。通过实验结果可知BERT-TextCNN的泛化能力好于微调后的BERT模型。(3)将BERT模型与TextRCNN结合缓解微调后的BERT模型在商品分类任务存在的灾难性遗忘问题。TextRCNN采用Bi LSTM,由于LSTM具有长时记忆能力,可以选择记忆序列在不同状态下的信息,因此可缓解BERT模型在商品分类任务中存在的灾难性遗忘问题。通过实验结果可知BERT-TextRCNN模型在商品分类任务的泛化能力最强。(4)实现商品自动分类系统。本文基于Spring Boot框架,接入通过Flask框架部署BERT-TextRCNN模型提供的分类接口,设计与实现了商品批量自动分类系统。
基于领域知识图谱的短文本语义分析研究与应用
这是一篇关于短文本分类,知识图谱,数据增强,意图识别,预训练模型的论文, 主要内容为随着自然语言处理领域的不断发展,对于短文本分析的精度和深度的研究也在不断深入。利用自然语言处理技术对海量短文本数据的分析从庞大的数据中提取有价值的信息,并对这些信息结合领域业务需求进行更深入的挖掘和研究已是非常迫切的需求。本文旨在结合领域知识图谱,基于海量短文本数据进行以短文本分类为主的语义分析,从而更好地挖掘相关短文本在领域业务中潜在的语义信息表达。从基于传统机器学习实现短文本分类到如今基于深度学习方法实现,短文本分类的效果不断得到提高,但仍存在不足,主要体现在三个方面:(1)短文本分类数据集的数量有限且标签类别分布不均,限制了算法的泛化能力;(2)不遵循语法规则,具有口语化特征,算法难以识别其内在语义;(3)长度较短,缺乏上下文和领域信息支持,进一步限制了算法分类性能。基于此,本论文的研究内容主要围绕以下几个方面展开:(1)提出了一种基于领域知识图谱的数据增强方法DCKGDA(Domain Class Knowledge Graph Data Augmentation,DCKGDA),针对数据集匮乏问题,利用领域知识图谱等外部知识,在保留语句原始语义的前提下,结合领域知识图谱检索语句中与标签类别相关的实体节点,将这些词和短语使用图谱中的同级节点或者上位词以及下位词进行替换,从而生成泛化能力更强的多样化数据。在领域专家的指导下标注了一批汽车领域客户服务评价原话数据并进行了全样检验,并在该数据集上验证了提出的数据增强方法的有效性。(2)提出了一种基于预训练模型的短文本分类方法,针对短文本不遵循语法规则,且具有口语化特征的问题,首先对领域业务需求构建标签分类体系,然后在提出的数据增强方法基础上,构建基于预训练模型的短文本分类模型。引入ALBERT预训练模型的动态词向量替换Text CNN模型的词嵌入层解决静态词向量一词多义的问题,提高对短文本整体的理解准确性,通过Text CNN对语义特征进行卷积、池化后输出规范化的标签类别。实验结果表明,引入的预训练模型以及数据增强方法相比经典方法能够有效的提升短文本分类表现。(3)提出了一种融合知识图谱和标签信息的意图识别方法KAACNN(Knowledge-based Attention ALBERT Convolutional Neural Network,KAACNN),包括短文本编码、概念信息编码、标签信息编码和多维意图识别四个模块。针对短文本意图识别长度较短,缺乏上下文和领域信息支持的问题,一方面将基于预训练模型的短文本分类方法输出的规范化标签类别和短文本编码相融合;另一方面从知识图谱中检索短文本概念知识,并通过注意力机制计算每个概念对短文本的重要性,从而在知识融合的过程中能够避免知识噪声的影响,通过融合知识图谱的概念知识丰富短文本语义信息。最后,根据业务需求构建多维意图分析体系,实验结果表明,本文提出模型的四个模块能够有效的改善目前短文本存在的问题,能够提高短文本意图识别的准确率。(4)设计并开发了一套基于领域知识图谱的短文本语义分析系统,基于上述模型算法,结合业务实际应用场景,实现了领域知识图谱构建及可视化、客户原话智能语义分析、数据统计与分析以及报告生成等功能。面向汽车经销商服务评价数据分析场景,实现了对客户反馈信息的自动分类和挖掘,为汽车经销商提供了有价值的参考意见,提升了客户满意度和服务质量。
基于BiLSTM与Bert的短文本分类方法研究
这是一篇关于短文本分类,特征提取,注意力机制,BiLSTM,Bert的论文, 主要内容为在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中提取有价值的信息是目前文本分类领域面临的一大难题。研究高效的短文本内容提取方法是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。目前短文本分类中存在特征表示高维稀疏、语义分布不明显、上下文语意联系不强等问题,给信息抽取造成了一定的困扰。为更好的解决这些问题,提高文本分类的准确率,本文采用双向长短期记忆网络BiLSTM和Bert模型对短文本分类算法进行研究,主要工作包括:提出一种BiLSTM与注意力机制相结合的短文本分类模型,来解决长距离依赖问题并突出重点词汇在文本分类中的比重。该模型包括one-hot词向量输入层、BiLSTM层、注意力机制层和输出层。其中BiLSTM层可获取更多上下文不同距离的语义信息,注意力机制层对经过BiLSTM层编码的数据进行转变加权提升序列化的学习任务。通过实验表明:基于该模型的IT招聘信息分类准确率达到93.36%,与其他模型对比,提高约2%。构建基于Bert-BiLSTM的短文本分类模型,该模型在预处理过程中采用Bert进行向量表示,可以有效降低矩阵维度并解决一词多义等问题,对下游任务的进行奠定了良好的基础。BiLSTM模型对其向量进行训练,有效结合上下文语境,从而提高短文本分类的准确率。
基于BiLSTM与Bert的短文本分类方法研究
这是一篇关于短文本分类,特征提取,注意力机制,BiLSTM,Bert的论文, 主要内容为在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中提取有价值的信息是目前文本分类领域面临的一大难题。研究高效的短文本内容提取方法是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。目前短文本分类中存在特征表示高维稀疏、语义分布不明显、上下文语意联系不强等问题,给信息抽取造成了一定的困扰。为更好的解决这些问题,提高文本分类的准确率,本文采用双向长短期记忆网络BiLSTM和Bert模型对短文本分类算法进行研究,主要工作包括:提出一种BiLSTM与注意力机制相结合的短文本分类模型,来解决长距离依赖问题并突出重点词汇在文本分类中的比重。该模型包括one-hot词向量输入层、BiLSTM层、注意力机制层和输出层。其中BiLSTM层可获取更多上下文不同距离的语义信息,注意力机制层对经过BiLSTM层编码的数据进行转变加权提升序列化的学习任务。通过实验表明:基于该模型的IT招聘信息分类准确率达到93.36%,与其他模型对比,提高约2%。构建基于Bert-BiLSTM的短文本分类模型,该模型在预处理过程中采用Bert进行向量表示,可以有效降低矩阵维度并解决一词多义等问题,对下游任务的进行奠定了良好的基础。BiLSTM模型对其向量进行训练,有效结合上下文语境,从而提高短文本分类的准确率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://m.bishedaima.com/lunwen/47863.html