人工智能搜索引擎(web搜索引擎属于人工智能吗)
AIIA人才发展中心西安分中心主要针对陕西地区在校大学生及毕业生、企事业单位开展人工智能技术、产业、政策等方面的人才培养,为联盟旗下近千家企业的输送专业人才,促进当地人工智能产业的蓬勃发展。
关注微信公众号:AIIA人才发展中心西安分中心了解更多内容。
Internet上的搜索引擎大致可分为3种类型:
(1)人工建立的搜索引擎,如Yahoo。它是利用大量的人力浏览Internet页面,将其编制成HTML文件,对其进行分类,并按某种次序加以排列组合,使用户通过索引进行查阅。其优点是比较精确,缺点是编辑人员难以跟上Internet海量信息的更替步伐,建立的搜索索引覆盖面也受到限制。
(2)搜索引擎即软件Robot自动在Internet上搜寻数据资源,并自动建立索引,如AltaVista、Lycos、Excitd等。这种方法速度快,自动生成的索引覆盖面广,但精确度差,人们往往要花很大的精力从庞杂的反馈中过滤出所需的信息。
(3)元搜索引擎,如MetaCrawler。它实际上是一种本身不具备搜索引擎,而依靠其他原始引擎的索引或搜索接口来完成其搜索任务的引擎。尽管目前的搜索引擎给人们搜寻信息资源带来了很大的便利,但是从信息资源的覆盖面、检索精度、检索结果的可视化、可维护性等诸多方面看来,其效果远不能令人满意。
知识发现近几年来随着数据库和人工智能发展起来的一门新兴的数据库技术,帮助人们从庞大的目标数据集合中抽取出可信的、新颖的、有效的并被人们理解的知识模式,以满足人们不同的应用需要。本文提出的web搜索引擎框架就是以知识发现为基础的,它具有如下特点:
(1)通过综合多个搜索引擎的结果,扩大了信息资源覆盖面;
(2)对各个搜索引擎返回的结果进行知识发现"再加工",大大地提高了检索质量;
(3)对用户提交的查询,通过分析影响性能的时间因素和经验因素,优化选择效益好的搜索引擎进行信息检索,从而充分利用信息资源;
(4)不需要维护庞大的数据库,开发者可以将主要精力放在查询请求的分发和返回结果的处理上。
系统结构
基于知识发现的web搜索引擎系统框架主要由用户接口Agent、变换调度管理模块、web文档搜集模块、知识发现模块及各web搜索引擎所组成。
(1)用户接口Agent。在搜索引擎系统中,用户接口在用户与信息资源之间起着桥梁作用。由于Internet信息资源的大容量、动态性和复杂性,传统的人机交互方式显得无能为力。基于Agent的用户接口被认为是解决人机交互问题的一个突破口,它为用户提供可视化接口,将用户的请求转化为专用语言传递给变换管理模块,并将知识发现所处理的文档展示给用户。在用户看来,用户接口Agent是一个半自主的应用程序,一方面,它了解用户的需求和爱好,能够代表用户智能地完成某个任务,并具有学习和适应能力;另一方面,它受用户的控制,用户可以观察它的活动状态,也可以临时性地暂停或恢复其活动,甚至将它永久性地撤消。
(2)变换调度管理模块。接受来自用户接口Agent的用户查询请求,将其变换为各个搜索引擎所能识别的格式,并利用中介索引信息,对用户提交的查询,通过分析影响性能的时间因素(最佳查询时间)和经验因素(即某一个搜索引擎搜索某一类信息最佳),优化选择效益好的搜索引擎进行信息检索。此外,可根据用户提供的术语以及以往搜索成功与失败的经验,维护相应的中介索引。
(3)Web文档搜集模块。接受来自各个搜索引擎返回的搜索结果,并按一定的规则存放在Web档库中。
(4)知识发现模块。各搜索引擎返回的web文档结果集只是一种简单的合并。目前由于大多数的搜索引擎一味追求其检索的信息的数量,忽视了检索的质量,所以这种简单集成的结果是不尽人意的。知识发现模块就是一个对各搜索引擎返回的大量web文档进行分析的多步骤过程,最终向用户提供高质量的检索结果。后文将重点讨论。
知识发现过程及关键技术的实现
互联网小常识:全双工端口带宽的计算方法是:端口数*端口速率*2.在交换机选型中一个重要的数据是背板带宽/全双工端口的总带宽的比值。值越高交换机就越趋近于高性能线速无阻塞交换,交换机性能就越好,造价就越高。
知识发现的一般过程
整个知识发现的过程可分为3个阶段:数据准备,数据挖掘,知识评估及表现。
(1)数据准备。数据准备主要包括数据选择、数据清理和数据预处理。因为实际应用系统(各搜索引擎)收集到的数据是杂乱性、重复性和不完整性。一个完整的知识发现模块必须包含数据准备阶段,它以发现任务作为目标,以领域知识作为指导,用全新的"业务模型"来组织原来的web数据,抛弃一些与挖掘目标不相关的属性,为数据挖掘内核算法提供干净、准确、更有针对性的数据,从而减少挖掘内核的数据处理量,提高挖掘效率,提高知识发现的起点和知识的准确度。
(2)数据挖掘。数据挖掘阶段是整个知识发现过程的核心部分,也是其关键技术所在。这阶段的主要任务是确定发现知识的种类,研究数据挖掘的模型和算法,发现规则知识。目前流行的模型和算法来源于多个领域,典型的如数理统计、机器学习、模式识别、神经网络、数据库技术等。由于领域对挖掘任务的约束条件千差万别,同时作为挖掘算法一部分的目标数据和领域知识本身存在着多种的、异质的表达方式,因此需要根据实际的挖掘任务和领域特点,来选择合适的挖掘模型和算法。本文选择机器学习方法,从返回的web文档分类、聚类出用户感兴趣的信息。
(3)知识评估及表现。经过数据挖掘过程,产生的知识模式可以通过表格、统计图、图形、可视化模型等形式表达出来。这些知识有强、弱之分,是否具有实用价值要经过分析评价,最终得到用户所需的有用知识。
web文档数据挖掘技术
由各搜索引擎返回的是一组HTML格式的web文档集。与关系数据库中的结构化数据相比,这种web文档具有有限的结构,或者根本就没有结构,缺乏数据的组织规律性。因此,首先要将这些文档转化为一种类似关系数据库中记录的较规则、且能反映文档内容特征的中间表示形式,一般采用文档特征向量表示法。然后便可以利用文档分类和文档聚类等机器学习方法,来提取面向用户查询目的的知识模式,存储在用户特征模式库中。
(1)web文档表示
文档表示是指以一定的规则和描述来表示文档或文档集,是文档挖掘的基础。近年来常用的文档表示方法是TFIDF向量表示法。它是一种文档的词集(bag-of-words)表示法,所有的词从文档中抽取出来,而不考虑词间的顺序和文本的结构,从而构成一个二维数据表。其中列集为特征集,每一列是一个特征;行集为所有的文档集合,每一行为一个文档的特征集合。需要指出的是,对于中文文档来说,应先进行汉语分词处理后再进行上述的构造工作。这样构造的二维表表示的是web文档集合的词条的统计信息,最终就可进行分类和聚类挖掘。
(2)web文档分类
互联网小常识:异常检测主要包括基于统计异常检测、基于数据挖掘的异常检测、基于神经网络入侵检测等。
文档分类是指根据文档的内容或属性,将大量的文档归到一个或多个主题类别的过程。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查询更为容易。
(3)文档聚类
文档聚类的目标就是将文档聚集成类,使得类与类之间的相似度尽量小,而类内的相似度尽量大。文档聚类是一种有导师机器学习方法。现存的聚类算法一般分为分割和分层两种。分割聚类法通过优化一个评价函数,把文档集分割为k个部分。分层聚类法是由不同层次的分割聚类组成,层次之间的分割具有嵌套关系。
随着Internet迅猛发展,网上的信息急剧膨胀,要在这样一个浩如烟海的信息空间里查找所需的信息,人们觉得力不从心,往往花费了很多时间和精力却收获甚少。各种搜索引擎的出现,是解决上述问题的主要途径。但是目前的搜索引擎检索出的信息量庞大,常常混杂相当数量用户不感兴趣的、甚至是无关的信息。此外,一个特定的搜索引擎主要包含某一特定领域的信息,覆盖面有限。因此,如何在Internet上获得高检索精度和高检索率,是当前Internet资源发现的重要研究课题之一。本文将知识发现的思想和方法引入web搜索引擎,探索向用
户提供覆盖面广、质量高的web信息,具有很强的理论意义和实际价值。
关注微信公众号:AIIA人才发展中心西安分中心了解更多内容。
互联网小常识:网桥工作在数据链路层,作用主要是a实现异构网络的互联b通过接收、转发和地址过滤的方式实现互联网络的通信。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186