鼠疫耶尔森氏菌知识库的建立
这是一篇关于鼠疫耶尔森氏菌,文献,知识库,信息整合,论文库的论文, 主要内容为1.研究背景及目的鼠疫耶尔森氏菌(以下称鼠疫菌)是鼠疫的病原菌,在历史上曾引起过三次大流行。二战期间,日本侵略者展开惨绝人寰的细菌战,鼠疫菌曾被并用作生物战剂对我国实施攻击目前,鼠疫在世界各地时有病例发生,是影响全世界的公共卫生问题。我国现仍有12块鼠疫自然疫源地,分布在19个省(区),占国土面积的15%左右。加强鼠疫菌研究对鼠疫的控制与防治以及应对生物恐怖威胁具有重大现实意义。随着生物学技术的发展,围绕鼠疫菌所开展的基础科学和应用研究越来越多。这些研究工作产生了大量实验数据和文献资料,散落存放在世界各地的信息数据库中。通过中国知网及维普等中文文献查阅网站进行“鼠疫耶尔森氏菌数据库”及“鼠疫菌知识库”等关键词的检索,虽然与该菌有关的研究文献已有数千篇,但未发现该菌综合知识信息整合工作的文章发表。通过Pub Med数据库进行文献回溯和Google scholar检索网等进行检索,发现国际上有多个鼠疫耶尔森氏菌相关的数据库,如Gen Bank数据库,存储了鼠疫菌的全基因组序列和注释信息以及原始测序数据;MLVA数据库,收录了鼠疫菌的可变数目串联重复序列位点信息及菌株背景信息;CRISPR数据库,可检索到鼠疫菌的成簇规律间隔短回文重复序列位点序列信息;其它大型公开数据库,如Bio GRID、DDBJ和EMBL等存储了鼠疫菌蛋白质—蛋白质及基因相互作用等相关信息。这些数据库功能主要集中于鼠疫菌分子及遗传多样性数据的收集和管理,而并没有将鼠疫菌相关文献知识进行组织、整合,并有序储存于一个独立的数据库平台上。本研究拟收集整理关于该菌的学术论文、论著、新闻及疫情信息等相关知识,加以整合,建立便捷的鼠疫菌知识库系统,为用户提供查询、浏览和下载服务,以达到以下研究目的:(1)实现已有鼠疫菌相关知识和数据的集中存储管理;(2)查询便捷,提高现有文献信息的使用效率;(3)自动更新,实时获取鼠疫菌研究相关资讯。最终为鼠疫菌相关科研提供更为完整方便的知识和数据支撑,也为其他病原的知识库建立工作提供可参考的范例。2.研究方法2.1数据收集与整合通过对EndNote、Reference Manager、Biblioscape及Note Express等文献管理软件功能的调研,根据本课题拟收集中外文文献进行整理并筛选导出的需求,最终选择End Note X5文献管理软件进行文献的收集整理工作。在该软件中设置检索关键词为“Black death”、“Yesinia”、“Plague”及“Yesinia pestis”,通过对Pub Med数据库在线检索,收集筛选出相关外文文献题录。通过Find full text功能项自动获取到部分文献全文并链接至原文,其余外文文献的全文通过访问Sci-Hub网站手动检索收集。因End Note无中文搜索功能,中文文献题录则主要通过中国知网检索“黑死病”、“鼠疫”及“鼠疫耶尔森菌”等关键词获取,并进行人工筛选后将相关文献导入End Note文献管理软件,中文文献全文通过中国知网和万方数据收集。所有PDF全文文档通过Reference→File Attachment功能人工导入End Note文献库与原文相关联。收集工作结束后,使用Find Duplicates功能对全部文献收集结果进行查重和去冗余整理,最终以Show All Fields的格式导出,将所有文献信息存储于一个独立的TXT文件。全文PDF文档储存在End Note自定义的原文件夹,路径不变。2.2知识库系统的构建本研究通过Perl及PHP等计算机语言规范数据格式、构建实体关系模型、搭建系统和开发网页;选择中小型网站开发中常用的Apache+PHP+My SQL优势组合进行网站的动态开发,逐步完成知识库系统的构建。为了使各部分数据顺利架构在服务器上,通过编写Perl脚本对存储文献信息的TXT文本进行解析,生成一个可用Excel程序打开的文本列表,该列表以制表符分隔每个字段并为每行文献分配一个唯一的整数型标识符。同时编写Perl脚本,将PDF文件按照整数型标识符重新命名后,转移到另外统一存放PDF的文件夹中。经过数据的规范化处理,论文和著作被分割成实体(Entity)并分配属性(Attribute)。根据实体与实体及实体与属性之间的对应关系,构建实体关系模型(entity-relationship model),转化成表格并对应建立在配置好的My SQL 5.7数据库中,通过php My Admin工具,将文献数据导入到My SQL数据库并与全文PDF文件建立一一对应关系。数据库搭建完成后,在Apache网页服务器上开发基于web接口的动态网页,形成数据库网站系统。通过Java Script和Ajax快速处理服务器端与客户端的交互,运用Perl语言处理在知识库网页上返回到后台的各种数据。系统搭建完成后进行试运行与调试排错,保证系统运行顺畅。3.研究结果本研究架构的鼠疫菌知识库由文献信息模块、检索模块和新闻模块构成。用户可通过浏览器从Web端访问本库,访问网址为:http://101.201.51.148/ypkd/。知识库主页分上下两部分排版,由上方的标题栏、导航栏、简介、数据概览、快捷搜索入口及下方的新闻展示版块构成。信息搜索截止到2016年10月30日,文献信息模块收录鼠疫菌相关文献7183篇,书籍23部,均提供了URL链接;其中4620篇论文收集到PDF全文。用户进行普通检索或高级检索时,可通过设置标题、摘要、关键词、期刊、作者、时间等数据项获取相关信息,并可将所得文献按出版日期、作者及杂志名称进行排序浏览。标题下方将列出该论著的简要信息供用户初步浏览,继续点击标题即可阅读此文献的详细信息,包括文献的标题、作者、摘要、关键词、PMID号、全文以及Pub Med链接等,点击本库提供的PDF链接可在线浏览或下载全文。新闻版块中通过编制好的网络爬虫,自动实时抓取互联网最新的鼠疫菌相关信息,并按序展示;用户可通过超链接获取网络信息全文,保证了知识库的前沿性和完整性。4.结论本研究建立的知识库系统,内容丰富完整,界面简洁合理,使用快捷方便。该库将Pub Med和知网等网站的鼠疫菌相关信息全面整合起来,收录了已发表的几乎全部鼠疫菌相关文献信息资源,有利于知识的整体保存和利用。用户通过输入关键词等进行常规或组合检索,准确地在页面上获取相关文献列表并可按需排序;提供的文献全文,为研究者节省了多方查找资源、调研文献的时间。本网站通过网络爬虫,将最新鼠疫菌相关网络信息进行自动实时更新,排序展示在新闻版块,保证了网站的及时性和时效性。用户通过提供的超链接,可快速浏览全文,掌握信息详情。本知识库的建立,为科研工作者提供了可靠的鼠疫菌知识共享平台,为鼠疫疫情的相关信息提供了及时的动态来源,也为其他病原微生物知识库的建立提供了可借鉴的新模型。
鞍山移动电信行业信息新闻发布系统的设计与实现
这是一篇关于信息抓取,网页解析,中文分词,信息整合,新闻发布系统的论文, 主要内容为目前,每天都有大量的网站发布各种电信行业信息,这些信息具有很强的行业特殊性。面对如此众多海量的新闻,如何帮助用户从互联网中整合和处理电信行业数据已经成为摆在电信行业网站面前的重要问题。通过对行业信息进行分类,能够为用户提供信息的甄别和类别检索,缩小用户对新闻的检索范围,从而能够提高用户关注新闻的效率,同时提高网站的服务质量和访问量。为此针对行业信息,进行电信行业新闻的整合具有非常重要的意义。对于网络信息的收集和整合,网络爬虫是必不可少的工具之一。针对某一个特定的行业或领域设计具有针对性的网络爬虫,能够给行业信息整合带来很大的方便。为此,针对电信行业新闻的收集,需要设计一套符合电信行业的爬虫系统,实现对电信行业相关信息的全面收集与整合。本文就是在这种背景下,为了解决电信行业新闻整合的难题,提出了基于web的新闻整合发布系统,一方面为用户搜集重要的电信行业信息,另一方面也提高了用户黏性,并且减少用户在海量数据中搜索需要新闻的时间。本文目的是设计实现一个针对电信行业的新闻发布系统。首先介绍了课题的研究背景和现状,然后介绍了系统实现的相关技术如中文分词技术和TF-IDF方法。通过需求分析明确系统的功能和性能需求之后,本系统利用信息抓取技术,并设计电信行业信息爬虫来高效准确的搜集电信行业门户网站信息。然后,对于不同的网站设置不同的模板进行解析,提取页面正文信息。对于解析的新闻提取关键字,并对于文本进行分类处理。对于整合后的信息,系统将其存储在数据库中,通过后台管理,对于新闻信息进一步处理。最后通过友好的页面展示给系统用户,便于用户浏览和进一步使用。在本文中,整个模块在Microsoft.NET开发平台下,使用C#语言实现该系统。
LIMS图书馆信息管理系统的设计与实现
这是一篇关于图书馆信息管理系统,.Net,信息整合,生命周期法的论文, 主要内容为天津机电职业技术学院成立于较晚,是与多家技工学校合并而成。学院成立初期拥有多个独立的校区,各教学区均有独立的资料借阅室(图书馆前身),其中有的引入了信息查询系统,有的还在维持沿用原有的单机版查询系统,个别的采用手工借阅,随着学校的发展状态校区逐渐合并,形成了现在的单一校区,但由于前期的图书资料管理相互独立,信息管理系统架构各异,管理人员适应了各自的业务流程,形成了信息孤岛,不利于统一管理,因此现有的信息管理系统必须进行统一规划升级,实现大流通,大借阅、大服务的目标,消除信息孤岛。 本文针对学校的图书资料管理的客观软硬件情况和图书馆的业务流程进行了详细的调研,在调研过程中利用快速原型法反复征求用户意见,从软硬件、资金、人员、技术等方面分析了项目开发的可行性;运用生命周期法进行项目的分析和设计,利用数据流图、数据字典、E-R图、用例图等软件设计工具进行了软件的开发设计;为保障软件系统安全稳定运行,根据项目需求制定了详细的测试计划。 该项目采用B/S与C/S模式相结合的开发方式,图书的借阅功能采用C/S模式开发,系统开发了专门的客户端软件,满足了系统安全和灵活的要求。而对于广大读者的借阅情况查询和图书信息查询则采用B/S架构进行开发,实现了除借阅图书外,其他功能均可在网上进行。 本项目主要由图书信息管理、图书流通管理、人员管理、报表生成、系统安全等模块组成。采用ASP.NET4.0开发技术,后台数据库使用的是SQL Server2005数据库管理系统,利用Visual Studio2010开发工具进行开发和测试。经过功能测试、性能测试和负载测试表明该系统具有稳定、高效的特点,实际应用表明系统完全实现了设计的技术目标。 本系统与其他图书管理系统相比较,具有规模适中,适合高职学院使用,在系统中集成了流通过程中产生的滞纳金等费用管理,系统架构清晰,能够满足馆领导、借阅人员、财务人员相关岗位人员的需求。
基于Portal的企业新闻门户系统开发
这是一篇关于统一平台,信息整合,一体化,单点登录,J2EE,Portal,UML的论文, 主要内容为针对公司内部各单位新闻站点无统一技术架构、无统一企业视觉设计、无统一管理的现状,结合公司“网络及信息安全体系架构”,按照“统一的视觉设计规范、中央企业网站绩效评估体系、W3C标准”,在“统一规划、统一管理”的前提下,以“安全、标准、实用”为目标,基于省级大集中、省地县三级应用模式,对公司各新闻发布站点进行整合重构,建设一个安全技术架构一体化、非结构化数据管理一体化、新闻管理一体化、功能更加优化、安全稳定的、便于使用和运行维护的企业新闻发布网站。 本系统基于J2EE的Portal架构,使用流行的开源Liferay Portal门户框架进行开发,按照JSR168的标准进行门户实现,可运行在Windows与Linux操作系统上(建议运行环境为:Windows),同时支持主流数据库Oracle及Postgres,中间件支持Weblogic及Tomcat。应用层面,通过webservices的方式与综合信息平台进行接口支持,在平台中定制性浏览新闻信息。使用Struts实现数据模型、展现与控制层的分离(MVC)模式,使用Spring作为反射依赖工具,保证实现接口的可扩展性,使用Hibernate框架作为数据持久化框架,保证系统性能及SQL安全性。 统一用户接口及单点登录支持,门户系统只需要通过简单的配置,便可与标准LDAP用户库进行用户同步。同时灵活的登录认证管道机制,保证了本系统能够快速与其他系统进行单点登录实现或其他登认证方式支持,如PKI/CA方式。 企业内容管理平台以SOA架构为基础,构建了一个分层的、开放式的非结构化数据管理平台,定制了目录分类体系及元数据标准。基于内容管理平台对外提供的非结构化数据存储、更新、检索、元数据等服务实现了新闻图片、文档附件等非结构化数据的一体化管理,与企业架构融合为一体。
基于组件式GIS的通信信息整合管理平台的设计与实现
这是一篇关于通信信息管理,GIS,信息整合,AJAX的论文, 主要内容为随着军队信息化建设的发展,为满足未来信息化战争的需要,掌握战区通信资源的使用和分布情况,对打赢现代化局部战争来说及其重要。 针对各业务资料信息零乱,没有标准化,不能进行有效的检索,不能形成信息的有机联系,资源管理更新不能同步等问题,运用计算机技术实现通信资源GIS管理、资源信息标准化管理、通信业务综合管理、台站信息综合管理、资源调度的智能管理、各种表报资料及文书自动生成及传输分发。实现通信资源信息标准化,业务关系逻辑化、信息交流网络化,资源调度管理智能化,业务处理一体化,有助于提高作战(预)方案制作、通信故障排除、通信资源分配、训练教育的时效和网络管理水平,充分发挥通信资源的利用率。 本文首先对GIS应用于部队通信的发展情况做了简要的介绍,分析了GIS应用于部队通信信息管理的重要性。在此基础上,针对军事通信网络资源的特性和其包含丰富空间地理信息的特点结合目前部队通信网络资源管理状况,通过组件式GIS和MIS系统的融合将通信网络资源数据集成到GIS当中。介绍了项目开发中采用的主要技术,并设计开发出了“通信信息整合管理平台”,对整体架构进行了分析,提出了系统总体设计。然后根据实际情况按功能模块进行了划分,并给出了各功能模块的分析和设计与算法实现,采用asp.net开发平台,使用MAPXTREME组件和c#语言进行开发。最后对实现的各功能模块进行了简要介绍。 在地理信息和管理信息集成理论和软件开发理论的指导下,设计实现了针对大军区级的具有实用价值的部队通信资源管理平台。为部队通信资源管理的研究探索了一条新途径,同时为下一步管理动态通信资源打下了基础。
分领域深网信息集成系统的设计与实现
这是一篇关于深网,信息抽取,信息整合,查询转换,接口匹配的论文, 主要内容为“深网”信息是指互联网上可检索数据库中的信息。随着互联网的飞速发展,互联网上的可检索数据库越来越多,但是由于传统的搜索引擎难以检索到深度隐藏在数据库中的信息,使得大量的信息对上网用户而言是不可见的,只有通过站点前台页面中的查询接口向站点后台提交查询请求才能对这些信息进行访问。针对深网访问的需求,本文分析了当前深网集成的相关技术,并在此基础上进行了研究和改进,本文的主要工作包括: 1)提出了按领域对深网信息进行集成的思想,与传统的深网信息集成相比更好地利用了深网内容领域性强的特点,改善了信息集成的效果。 2)对深网集成相关技术进行了研究和分析,设计了一个分领域的深网信息集成框架,实现了一个原型系统。该系统由深网站点分类采集模块、深网查询接口识别模块、领域属性抽取模块、领域属性匹配模块、统一接口构造模块和深网结果记录抽取模块六个部分组成。系统通过对第三方目录进行整合实现了深网站点分类采集模块,通过表单爬虫和规则过滤实现了深网查询接口识别模块,通过建立领域知识库辅助实现了领域属性抽取模块和领域属性匹配模块。本文还提出了一种基于CSS选择器的深网结果页信息抽取方法,通过将该方法与传统的MDR方法相结合实现了深网结果记录抽取模块。 3)使用Ajax、缓存数据库、查询优化等技术对系统进行优化,改善了用户体验、降低了系统负载。 本文的创新之处在于: 1)提出了通过建立领域知识库来辅助实现深网查询接口的领域属性分解和领域属性匹配的方法。该方法通过在领域知识库中定义领域单属性间的相似关系,对深网查询接口中属性的名称进行语义分解。 2)提出了一种基于CSS选择器的深网结果页信息抽取方法,该方法能够准确快速地抽取出深网查询结果页面中的数据记录。 本文设计实现的分领域深网信息集成系统基于B/S结构,采用JAVA作为开发语言,利用开源的Spring与Hibernate框架组合搭建了系统技术框架。系统通过前端的网页查询接口接收用户请求,根据用户查询条件来查询特定领域内的深网信息。通过在书籍,汽车和视频等领域内的深网信息集成实验表明,系统有着良好的深网信息集成效果,已具有一定的实用价值。
鼠疫耶尔森氏菌知识库的建立
这是一篇关于鼠疫耶尔森氏菌,文献,知识库,信息整合,论文库的论文, 主要内容为1.研究背景及目的鼠疫耶尔森氏菌(以下称鼠疫菌)是鼠疫的病原菌,在历史上曾引起过三次大流行。二战期间,日本侵略者展开惨绝人寰的细菌战,鼠疫菌曾被并用作生物战剂对我国实施攻击目前,鼠疫在世界各地时有病例发生,是影响全世界的公共卫生问题。我国现仍有12块鼠疫自然疫源地,分布在19个省(区),占国土面积的15%左右。加强鼠疫菌研究对鼠疫的控制与防治以及应对生物恐怖威胁具有重大现实意义。随着生物学技术的发展,围绕鼠疫菌所开展的基础科学和应用研究越来越多。这些研究工作产生了大量实验数据和文献资料,散落存放在世界各地的信息数据库中。通过中国知网及维普等中文文献查阅网站进行“鼠疫耶尔森氏菌数据库”及“鼠疫菌知识库”等关键词的检索,虽然与该菌有关的研究文献已有数千篇,但未发现该菌综合知识信息整合工作的文章发表。通过Pub Med数据库进行文献回溯和Google scholar检索网等进行检索,发现国际上有多个鼠疫耶尔森氏菌相关的数据库,如Gen Bank数据库,存储了鼠疫菌的全基因组序列和注释信息以及原始测序数据;MLVA数据库,收录了鼠疫菌的可变数目串联重复序列位点信息及菌株背景信息;CRISPR数据库,可检索到鼠疫菌的成簇规律间隔短回文重复序列位点序列信息;其它大型公开数据库,如Bio GRID、DDBJ和EMBL等存储了鼠疫菌蛋白质—蛋白质及基因相互作用等相关信息。这些数据库功能主要集中于鼠疫菌分子及遗传多样性数据的收集和管理,而并没有将鼠疫菌相关文献知识进行组织、整合,并有序储存于一个独立的数据库平台上。本研究拟收集整理关于该菌的学术论文、论著、新闻及疫情信息等相关知识,加以整合,建立便捷的鼠疫菌知识库系统,为用户提供查询、浏览和下载服务,以达到以下研究目的:(1)实现已有鼠疫菌相关知识和数据的集中存储管理;(2)查询便捷,提高现有文献信息的使用效率;(3)自动更新,实时获取鼠疫菌研究相关资讯。最终为鼠疫菌相关科研提供更为完整方便的知识和数据支撑,也为其他病原的知识库建立工作提供可参考的范例。2.研究方法2.1数据收集与整合通过对EndNote、Reference Manager、Biblioscape及Note Express等文献管理软件功能的调研,根据本课题拟收集中外文文献进行整理并筛选导出的需求,最终选择End Note X5文献管理软件进行文献的收集整理工作。在该软件中设置检索关键词为“Black death”、“Yesinia”、“Plague”及“Yesinia pestis”,通过对Pub Med数据库在线检索,收集筛选出相关外文文献题录。通过Find full text功能项自动获取到部分文献全文并链接至原文,其余外文文献的全文通过访问Sci-Hub网站手动检索收集。因End Note无中文搜索功能,中文文献题录则主要通过中国知网检索“黑死病”、“鼠疫”及“鼠疫耶尔森菌”等关键词获取,并进行人工筛选后将相关文献导入End Note文献管理软件,中文文献全文通过中国知网和万方数据收集。所有PDF全文文档通过Reference→File Attachment功能人工导入End Note文献库与原文相关联。收集工作结束后,使用Find Duplicates功能对全部文献收集结果进行查重和去冗余整理,最终以Show All Fields的格式导出,将所有文献信息存储于一个独立的TXT文件。全文PDF文档储存在End Note自定义的原文件夹,路径不变。2.2知识库系统的构建本研究通过Perl及PHP等计算机语言规范数据格式、构建实体关系模型、搭建系统和开发网页;选择中小型网站开发中常用的Apache+PHP+My SQL优势组合进行网站的动态开发,逐步完成知识库系统的构建。为了使各部分数据顺利架构在服务器上,通过编写Perl脚本对存储文献信息的TXT文本进行解析,生成一个可用Excel程序打开的文本列表,该列表以制表符分隔每个字段并为每行文献分配一个唯一的整数型标识符。同时编写Perl脚本,将PDF文件按照整数型标识符重新命名后,转移到另外统一存放PDF的文件夹中。经过数据的规范化处理,论文和著作被分割成实体(Entity)并分配属性(Attribute)。根据实体与实体及实体与属性之间的对应关系,构建实体关系模型(entity-relationship model),转化成表格并对应建立在配置好的My SQL 5.7数据库中,通过php My Admin工具,将文献数据导入到My SQL数据库并与全文PDF文件建立一一对应关系。数据库搭建完成后,在Apache网页服务器上开发基于web接口的动态网页,形成数据库网站系统。通过Java Script和Ajax快速处理服务器端与客户端的交互,运用Perl语言处理在知识库网页上返回到后台的各种数据。系统搭建完成后进行试运行与调试排错,保证系统运行顺畅。3.研究结果本研究架构的鼠疫菌知识库由文献信息模块、检索模块和新闻模块构成。用户可通过浏览器从Web端访问本库,访问网址为:http://101.201.51.148/ypkd/。知识库主页分上下两部分排版,由上方的标题栏、导航栏、简介、数据概览、快捷搜索入口及下方的新闻展示版块构成。信息搜索截止到2016年10月30日,文献信息模块收录鼠疫菌相关文献7183篇,书籍23部,均提供了URL链接;其中4620篇论文收集到PDF全文。用户进行普通检索或高级检索时,可通过设置标题、摘要、关键词、期刊、作者、时间等数据项获取相关信息,并可将所得文献按出版日期、作者及杂志名称进行排序浏览。标题下方将列出该论著的简要信息供用户初步浏览,继续点击标题即可阅读此文献的详细信息,包括文献的标题、作者、摘要、关键词、PMID号、全文以及Pub Med链接等,点击本库提供的PDF链接可在线浏览或下载全文。新闻版块中通过编制好的网络爬虫,自动实时抓取互联网最新的鼠疫菌相关信息,并按序展示;用户可通过超链接获取网络信息全文,保证了知识库的前沿性和完整性。4.结论本研究建立的知识库系统,内容丰富完整,界面简洁合理,使用快捷方便。该库将Pub Med和知网等网站的鼠疫菌相关信息全面整合起来,收录了已发表的几乎全部鼠疫菌相关文献信息资源,有利于知识的整体保存和利用。用户通过输入关键词等进行常规或组合检索,准确地在页面上获取相关文献列表并可按需排序;提供的文献全文,为研究者节省了多方查找资源、调研文献的时间。本网站通过网络爬虫,将最新鼠疫菌相关网络信息进行自动实时更新,排序展示在新闻版块,保证了网站的及时性和时效性。用户通过提供的超链接,可快速浏览全文,掌握信息详情。本知识库的建立,为科研工作者提供了可靠的鼠疫菌知识共享平台,为鼠疫疫情的相关信息提供了及时的动态来源,也为其他病原微生物知识库的建立提供了可借鉴的新模型。
鞍山移动电信行业信息新闻发布系统的设计与实现
这是一篇关于信息抓取,网页解析,中文分词,信息整合,新闻发布系统的论文, 主要内容为目前,每天都有大量的网站发布各种电信行业信息,这些信息具有很强的行业特殊性。面对如此众多海量的新闻,如何帮助用户从互联网中整合和处理电信行业数据已经成为摆在电信行业网站面前的重要问题。通过对行业信息进行分类,能够为用户提供信息的甄别和类别检索,缩小用户对新闻的检索范围,从而能够提高用户关注新闻的效率,同时提高网站的服务质量和访问量。为此针对行业信息,进行电信行业新闻的整合具有非常重要的意义。对于网络信息的收集和整合,网络爬虫是必不可少的工具之一。针对某一个特定的行业或领域设计具有针对性的网络爬虫,能够给行业信息整合带来很大的方便。为此,针对电信行业新闻的收集,需要设计一套符合电信行业的爬虫系统,实现对电信行业相关信息的全面收集与整合。本文就是在这种背景下,为了解决电信行业新闻整合的难题,提出了基于web的新闻整合发布系统,一方面为用户搜集重要的电信行业信息,另一方面也提高了用户黏性,并且减少用户在海量数据中搜索需要新闻的时间。本文目的是设计实现一个针对电信行业的新闻发布系统。首先介绍了课题的研究背景和现状,然后介绍了系统实现的相关技术如中文分词技术和TF-IDF方法。通过需求分析明确系统的功能和性能需求之后,本系统利用信息抓取技术,并设计电信行业信息爬虫来高效准确的搜集电信行业门户网站信息。然后,对于不同的网站设置不同的模板进行解析,提取页面正文信息。对于解析的新闻提取关键字,并对于文本进行分类处理。对于整合后的信息,系统将其存储在数据库中,通过后台管理,对于新闻信息进一步处理。最后通过友好的页面展示给系统用户,便于用户浏览和进一步使用。在本文中,整个模块在Microsoft.NET开发平台下,使用C#语言实现该系统。
鼠疫耶尔森氏菌知识库的建立
这是一篇关于鼠疫耶尔森氏菌,文献,知识库,信息整合,论文库的论文, 主要内容为1.研究背景及目的鼠疫耶尔森氏菌(以下称鼠疫菌)是鼠疫的病原菌,在历史上曾引起过三次大流行。二战期间,日本侵略者展开惨绝人寰的细菌战,鼠疫菌曾被并用作生物战剂对我国实施攻击目前,鼠疫在世界各地时有病例发生,是影响全世界的公共卫生问题。我国现仍有12块鼠疫自然疫源地,分布在19个省(区),占国土面积的15%左右。加强鼠疫菌研究对鼠疫的控制与防治以及应对生物恐怖威胁具有重大现实意义。随着生物学技术的发展,围绕鼠疫菌所开展的基础科学和应用研究越来越多。这些研究工作产生了大量实验数据和文献资料,散落存放在世界各地的信息数据库中。通过中国知网及维普等中文文献查阅网站进行“鼠疫耶尔森氏菌数据库”及“鼠疫菌知识库”等关键词的检索,虽然与该菌有关的研究文献已有数千篇,但未发现该菌综合知识信息整合工作的文章发表。通过Pub Med数据库进行文献回溯和Google scholar检索网等进行检索,发现国际上有多个鼠疫耶尔森氏菌相关的数据库,如Gen Bank数据库,存储了鼠疫菌的全基因组序列和注释信息以及原始测序数据;MLVA数据库,收录了鼠疫菌的可变数目串联重复序列位点信息及菌株背景信息;CRISPR数据库,可检索到鼠疫菌的成簇规律间隔短回文重复序列位点序列信息;其它大型公开数据库,如Bio GRID、DDBJ和EMBL等存储了鼠疫菌蛋白质—蛋白质及基因相互作用等相关信息。这些数据库功能主要集中于鼠疫菌分子及遗传多样性数据的收集和管理,而并没有将鼠疫菌相关文献知识进行组织、整合,并有序储存于一个独立的数据库平台上。本研究拟收集整理关于该菌的学术论文、论著、新闻及疫情信息等相关知识,加以整合,建立便捷的鼠疫菌知识库系统,为用户提供查询、浏览和下载服务,以达到以下研究目的:(1)实现已有鼠疫菌相关知识和数据的集中存储管理;(2)查询便捷,提高现有文献信息的使用效率;(3)自动更新,实时获取鼠疫菌研究相关资讯。最终为鼠疫菌相关科研提供更为完整方便的知识和数据支撑,也为其他病原的知识库建立工作提供可参考的范例。2.研究方法2.1数据收集与整合通过对EndNote、Reference Manager、Biblioscape及Note Express等文献管理软件功能的调研,根据本课题拟收集中外文文献进行整理并筛选导出的需求,最终选择End Note X5文献管理软件进行文献的收集整理工作。在该软件中设置检索关键词为“Black death”、“Yesinia”、“Plague”及“Yesinia pestis”,通过对Pub Med数据库在线检索,收集筛选出相关外文文献题录。通过Find full text功能项自动获取到部分文献全文并链接至原文,其余外文文献的全文通过访问Sci-Hub网站手动检索收集。因End Note无中文搜索功能,中文文献题录则主要通过中国知网检索“黑死病”、“鼠疫”及“鼠疫耶尔森菌”等关键词获取,并进行人工筛选后将相关文献导入End Note文献管理软件,中文文献全文通过中国知网和万方数据收集。所有PDF全文文档通过Reference→File Attachment功能人工导入End Note文献库与原文相关联。收集工作结束后,使用Find Duplicates功能对全部文献收集结果进行查重和去冗余整理,最终以Show All Fields的格式导出,将所有文献信息存储于一个独立的TXT文件。全文PDF文档储存在End Note自定义的原文件夹,路径不变。2.2知识库系统的构建本研究通过Perl及PHP等计算机语言规范数据格式、构建实体关系模型、搭建系统和开发网页;选择中小型网站开发中常用的Apache+PHP+My SQL优势组合进行网站的动态开发,逐步完成知识库系统的构建。为了使各部分数据顺利架构在服务器上,通过编写Perl脚本对存储文献信息的TXT文本进行解析,生成一个可用Excel程序打开的文本列表,该列表以制表符分隔每个字段并为每行文献分配一个唯一的整数型标识符。同时编写Perl脚本,将PDF文件按照整数型标识符重新命名后,转移到另外统一存放PDF的文件夹中。经过数据的规范化处理,论文和著作被分割成实体(Entity)并分配属性(Attribute)。根据实体与实体及实体与属性之间的对应关系,构建实体关系模型(entity-relationship model),转化成表格并对应建立在配置好的My SQL 5.7数据库中,通过php My Admin工具,将文献数据导入到My SQL数据库并与全文PDF文件建立一一对应关系。数据库搭建完成后,在Apache网页服务器上开发基于web接口的动态网页,形成数据库网站系统。通过Java Script和Ajax快速处理服务器端与客户端的交互,运用Perl语言处理在知识库网页上返回到后台的各种数据。系统搭建完成后进行试运行与调试排错,保证系统运行顺畅。3.研究结果本研究架构的鼠疫菌知识库由文献信息模块、检索模块和新闻模块构成。用户可通过浏览器从Web端访问本库,访问网址为:http://101.201.51.148/ypkd/。知识库主页分上下两部分排版,由上方的标题栏、导航栏、简介、数据概览、快捷搜索入口及下方的新闻展示版块构成。信息搜索截止到2016年10月30日,文献信息模块收录鼠疫菌相关文献7183篇,书籍23部,均提供了URL链接;其中4620篇论文收集到PDF全文。用户进行普通检索或高级检索时,可通过设置标题、摘要、关键词、期刊、作者、时间等数据项获取相关信息,并可将所得文献按出版日期、作者及杂志名称进行排序浏览。标题下方将列出该论著的简要信息供用户初步浏览,继续点击标题即可阅读此文献的详细信息,包括文献的标题、作者、摘要、关键词、PMID号、全文以及Pub Med链接等,点击本库提供的PDF链接可在线浏览或下载全文。新闻版块中通过编制好的网络爬虫,自动实时抓取互联网最新的鼠疫菌相关信息,并按序展示;用户可通过超链接获取网络信息全文,保证了知识库的前沿性和完整性。4.结论本研究建立的知识库系统,内容丰富完整,界面简洁合理,使用快捷方便。该库将Pub Med和知网等网站的鼠疫菌相关信息全面整合起来,收录了已发表的几乎全部鼠疫菌相关文献信息资源,有利于知识的整体保存和利用。用户通过输入关键词等进行常规或组合检索,准确地在页面上获取相关文献列表并可按需排序;提供的文献全文,为研究者节省了多方查找资源、调研文献的时间。本网站通过网络爬虫,将最新鼠疫菌相关网络信息进行自动实时更新,排序展示在新闻版块,保证了网站的及时性和时效性。用户通过提供的超链接,可快速浏览全文,掌握信息详情。本知识库的建立,为科研工作者提供了可靠的鼠疫菌知识共享平台,为鼠疫疫情的相关信息提供了及时的动态来源,也为其他病原微生物知识库的建立提供了可借鉴的新模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/51952.html