基于本体的信息资源的集成
这是一篇关于本体构建,本体映射,信息资源集成框架,包装器,查询处理,集成系统的论文, 主要内容为信息资源集成可以屏蔽底层信息资源的异构性,提供给用户一个全局的信息视图,实现分布式、异构信息的统一访问。传统的集成方法无法解决语义异构问题,而本体具有良好的概念层次结构并支持逻辑推理,因而可以解决信息资源的语义异构问题。 本文提出了分布式网络环境下的基于本体的信息资源集成框架,它具有松耦合、易扩展、支持语义查询等良好特性。该框架不仅适合某领域的集成,如政府信息资源,而且用户还可以通过改变本体定义和信息资源来改变框架的应用范围,从而扩展到其它领域,因此该框架具有通用性。本文构建了政府档案全局本体,以关系数据库和XML两类信息源为例,利用局部信息资源的模式抽取出局部本体,建立了全局本体与局部本体,以及局部本体与信息资源之间的映射;提出了全局查询分解算法以及子查询转换算法;设计了包装器,它包括查询翻译服务、查询服务和结果转换服务,并把这些服务注册到私有UDDI注册中心。在查询处理部分提出了采用类SQL作为全局查询语言,查询结果以统一的对象形式进行整合,显示给用户。 为了验证框架的可实现性,设计并实现了基于本体的信息资源集成原型系统。采用OWL DL对本体进行描述、Jena2.5.3对本体进行解析,利用J2EE平台、JSP、Struts、EJB、Hibernate、Web Services、jUDDI、UDDI4J等技术实现了该原型系统,最后对所做的工作进行了总结。
Web对象提取检索系统的设计与实现
这是一篇关于通用搜索引擎,页面搜索引擎,对象搜索引擎,信息抓取,Web对象提取,包装器,模板提取,视觉分析技术的论文, 主要内容为近年来,互联网的迅速发展掀起了信息时代又一轮的经济与技术的发展浪潮。而日益强大的搜索引擎正是引领这一时代的关键技术之一,它有效的解决了互联网由于爆炸性发展带来的数据检索困难。当前基于网页的通用搜索引擎(Page-Level Searching)又称页面搜索引擎占据主导地位,但它只能简单地返回整个页面,用户需要进一步阅读分析页面才能得到相应信息。而用户时常需要得到互联网上某种对象的信息,针对用户的这一需求,基于结构化信息的更加细粒度的对象搜索引擎(Object-Level Searching)应运而生。对象搜索引擎与通用搜索引擎相比,主要组成部分除了网络爬虫(也叫网页爬行器)、切词器、索引器、查询器外还包括Web对象信息提取和集成部分。其中Web对象的提取和集成是对象搜索引擎的难点和核心之一,也是其与通用搜索引擎的主要差别。 作者在某公司实习期间参与了对象搜索引擎的设计、开发等相关工作,尤其是Web对象提取领域的研究。本文工作描述如下: 1、实现了一个可配置的多线程的Web爬虫系统。用户可以在配置文件中灵活设置抓取种子,以支持多个网站作为数据源;该系统通过解析配置文件准确抓取页面,并从中进一步获取抓取种子,进行深度递归抓取。 2、设计了一种基于包装器和模板提取思想的Web信息提取算法。通过仔细分析需求背景,尤其是网页结构普遍存在的相似性,深入比较各种提取方法的优劣,总结出一套整合了包装器提取法和和模板提取法主要思想的提取算法。包装器方法是设计一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。该系统首先通过类似于正则表达式的XPath路径表达式定位对象信息可能存在的网页,然后通过预先定义好的模板匹配这些网页中的对象结构,以提取相应的Web对象信息。 3、设计了信息集成算法。多数据源Web信息的提取过程中会出现信息的重复、不一致或者冲突的情况,信息集成算法用于解决这一问题。通过解析对象初始结构和同义词判定算法判定属性是否重复,属性值是否冲突;定义一系列集成规则合成属性和属性值,重构对象信息存入数据库。 4、基于以上Web提取和集成的算法设计思想,在实习项目中应用并实现了该算法,取得了理想的效果,对目标对象的提取和集成达到了90%以上的准确率。本文应用该算法实现了一个简单的Web对象提取检索系统,以实际例子为主线阐述了该算法的详细设计过程,展示和证明了它的实际可用性。
网站数据的提取方法的研究
这是一篇关于包装器,DOM,动态数据,phantomJS的论文, 主要内容为自从web2.0的出现,互联网的形态发生了巨大的变化。只要联网,人人都可以参与到互联网,并且很容易地发布信息,这就导致了大量垃圾信息的产生。由于一些商业问题和技术问题,搜索引擎并不能很好地解决垂直且高效获取用户关心信息的问题,同时互联网上利用ajax的编写的动态数据网页越来越多,搜索引擎对于该动态网页并不能很好地进行分析。因此,如何垂直地提取动态网页的信息绕过干扰信息,具有一定的研究意义。本文针对当前几种信息获取应用进行研究和实验,首先选取了 web api方式获取数据,研究了相关原理和流程,实验选用了百度提供的pm2.5api接口进行武汉pm2.5实时信息获取,通过相应操作成功获取武汉实时PM2.5信息。其次选用RSS的方式来获取新闻信息,实验对象选用了凤凰网综合信息频道,通过对RSS feed的解析,获取了以新闻标题为超链接的最新新闻列表。最后对当下搜索引擎,进行相应的试验,分别选取了一部分平时生活感兴趣内容但搜索结果又不够理想的关键词作为试验关键词,选取的搜索引擎的目标为百度。通过对以上三种方式的信息获取应用进行评估后,结合当前信息提取相关文献,通过动态信息生成原理和系统可行性的综合分析,提出了一种基于包装器的DOM提取动态网站数据的垂直半自动化系统。该系统的核心模块是phantomJS包,基于B/S架构,实验目标分别选取了京东,苏宁和亚马逊,主要提取其商品价格信息,其中京东和苏宁的数据属于动态生成的数据,亚马逊的数据能够在网页源文件中看到,它们分别代表了主流网站数据生成方式。通过给系统传递某一个页面的URL,通过下拉菜单调用相应的包装器文件,能够成功获得三家网站的页面数据,该系统可以完成预定的目标,但通过实验过程来看,该系统由于需要运行phantomJS,它可以看成是开打浏览器去解析页面,因此提取数据需要一定的时间,对于服务器性能也有一定的要求。
基于本体的信息资源的集成
这是一篇关于本体构建,本体映射,信息资源集成框架,包装器,查询处理,集成系统的论文, 主要内容为信息资源集成可以屏蔽底层信息资源的异构性,提供给用户一个全局的信息视图,实现分布式、异构信息的统一访问。传统的集成方法无法解决语义异构问题,而本体具有良好的概念层次结构并支持逻辑推理,因而可以解决信息资源的语义异构问题。 本文提出了分布式网络环境下的基于本体的信息资源集成框架,它具有松耦合、易扩展、支持语义查询等良好特性。该框架不仅适合某领域的集成,如政府信息资源,而且用户还可以通过改变本体定义和信息资源来改变框架的应用范围,从而扩展到其它领域,因此该框架具有通用性。本文构建了政府档案全局本体,以关系数据库和XML两类信息源为例,利用局部信息资源的模式抽取出局部本体,建立了全局本体与局部本体,以及局部本体与信息资源之间的映射;提出了全局查询分解算法以及子查询转换算法;设计了包装器,它包括查询翻译服务、查询服务和结果转换服务,并把这些服务注册到私有UDDI注册中心。在查询处理部分提出了采用类SQL作为全局查询语言,查询结果以统一的对象形式进行整合,显示给用户。 为了验证框架的可实现性,设计并实现了基于本体的信息资源集成原型系统。采用OWL DL对本体进行描述、Jena2.5.3对本体进行解析,利用J2EE平台、JSP、Struts、EJB、Hibernate、Web Services、jUDDI、UDDI4J等技术实现了该原型系统,最后对所做的工作进行了总结。
网站数据的提取方法的研究
这是一篇关于包装器,DOM,动态数据,phantomJS的论文, 主要内容为自从web2.0的出现,互联网的形态发生了巨大的变化。只要联网,人人都可以参与到互联网,并且很容易地发布信息,这就导致了大量垃圾信息的产生。由于一些商业问题和技术问题,搜索引擎并不能很好地解决垂直且高效获取用户关心信息的问题,同时互联网上利用ajax的编写的动态数据网页越来越多,搜索引擎对于该动态网页并不能很好地进行分析。因此,如何垂直地提取动态网页的信息绕过干扰信息,具有一定的研究意义。本文针对当前几种信息获取应用进行研究和实验,首先选取了 web api方式获取数据,研究了相关原理和流程,实验选用了百度提供的pm2.5api接口进行武汉pm2.5实时信息获取,通过相应操作成功获取武汉实时PM2.5信息。其次选用RSS的方式来获取新闻信息,实验对象选用了凤凰网综合信息频道,通过对RSS feed的解析,获取了以新闻标题为超链接的最新新闻列表。最后对当下搜索引擎,进行相应的试验,分别选取了一部分平时生活感兴趣内容但搜索结果又不够理想的关键词作为试验关键词,选取的搜索引擎的目标为百度。通过对以上三种方式的信息获取应用进行评估后,结合当前信息提取相关文献,通过动态信息生成原理和系统可行性的综合分析,提出了一种基于包装器的DOM提取动态网站数据的垂直半自动化系统。该系统的核心模块是phantomJS包,基于B/S架构,实验目标分别选取了京东,苏宁和亚马逊,主要提取其商品价格信息,其中京东和苏宁的数据属于动态生成的数据,亚马逊的数据能够在网页源文件中看到,它们分别代表了主流网站数据生成方式。通过给系统传递某一个页面的URL,通过下拉菜单调用相应的包装器文件,能够成功获得三家网站的页面数据,该系统可以完成预定的目标,但通过实验过程来看,该系统由于需要运行phantomJS,它可以看成是开打浏览器去解析页面,因此提取数据需要一定的时间,对于服务器性能也有一定的要求。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈网 ,原文地址:https://m.bishedaima.com/lunwen/52114.html