路漫漫其修远兮,吾将上下而求索 ——”人工智能+搜索“浅析_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  AI.人工智能讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2924 | 回复: 0   主题: 路漫漫其修远兮,吾将上下而求索 ——”人工智能+搜索“浅析        下一篇 
huang.wang
注册用户
等级:中将
经验:17623
发帖:407
精华:1
注册:1970-1-1
状态:离线
发送短消息息给huang.wang 加好友    发送短消息息给huang.wang 发消息
发表于: IP:您无权察看 2017-9-15 16:01:17 | [全部帖] [楼主帖] 楼主

1.webp.jpg

当在工作或者生活中遇到一个不太懂的问题时,你通常会去哪里寻找答案呢?

少数人也许会习惯性去询问身边的人,但根据调查结果显示,针对这个问题,绝大多数人的第一反应是拿起手机上网搜索一下。可见,在不知不觉当中,搜索已经成为了我们生活中的一部分,无论是找资料、查地图、听音乐,还是搜习题、看评价、查交通,通过搜索基本上都能得到较为满意的信息。甚至很多人说,如果某个问题在搜索引擎上找不到答案,那可能这个世界上就没有这个问题的现成答案了。

网络把世界连通在一起,让信息得以共享与传播,大大降低了信息获取的门槛。但与此同时,随着近年来互联网的爆炸性发展,数不清的关联信息都被显示出来,让人眼花缭乱无法分清楚重点,普通用户想通过网络搜索到所需的资料简直如同大海捞针一般困难。针对这种情况,为简化搜索流程、满足大众信息检索需求的专业搜索殷勤便应运而生了。

如果说搜索引擎的出现是信息检索的一个转折点,简化了繁复的检索流程,那人工智能技术的出现则算得上是搜索引擎发展的转折点,让检索压力与日俱增的搜索引擎找到了新的突破点。人工智能在搜索引擎方面的应用大大提高了搜索引擎的适用性,也让搜索结果更加准确、搜索到的信息更加符合用户的预期。下面,我们将从搜索引擎的发展历史智能搜索的产生与发展以及智能搜索的未来方向这方面来看一下人工智能在搜索领域的应用。


搜索引擎的发展历史

2.webp.jpg

图|搜索引擎的发展历程

搜索引擎从1990年原型初显,发展到现在成为人们生活中必不可少的一部分,经历了太多技术和观念的变革。按搜索方式来分,搜索引擎发展至今大致可以分为如下五个阶段:

搜索引擎第一代:分类目录时代

正式的搜索引擎出现之前,互联网上就已经存在许多旨在让人们共享的信息资源的站点了。这些资源当时主要存在于各种允许匿名访问的FTP站点。为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学的几个大学生开发了一个软件Archie,它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。

不知道大家是否有设置过导航网站等网址作为自己浏览器的首页?我们可以从这些网站里找到大量的分类网址,几乎在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎最初的模式,也可以称之为搜索引擎的第一代。

搜索引擎第二代:文本检索时代

当万维网(World Wide Web)出现后,人们可以通过html传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的网站雅虎(Yahoo!)就是在这个环境下诞生的。到了这一代,搜索引擎查询信息的方法则是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。这就是搜索引擎第二代。

搜索引擎第三代:链接分析时代

当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。所谓的蜘蛛实际上是一种电脑“机器人”,能以人类无法达到的速度不间断的执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就像蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。1994年7月20日发布的Lycos网站第一个将“蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。

这一代的搜索引擎所使用的方法大概是和我们今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。这种模式的首先使用者是google,google不仅为首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。直至现在,大多数的主流搜索引擎都在使用分析链接技术算法。这就是第三代搜索引擎。

搜索引擎第四代:用户中心时代

搜索引擎发展到第四代,也就是我们现在所用的搜索引擎技术,也是现在的互联网上面用的对普遍的。主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。例如用户输入的是“苹果”,那么作为一个想要购买苹果手机的用户和一个果农来说,那么要求就是大大的不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同。现在的所有主流搜索引擎,基本都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。这一代搜索引擎主要是以用户为中心,从用户的角度出发,一个关键词可能指向不同的意思,相比于上一代更加人性化。

第五代:生活生态圈搜索时代

第五代搜索引擎应该是基于物联网的搜索,物联网搜索拥有更广阔的搜索空间,现在能预测到物联网一个最典型的应用就是:找东西,比如远程看管小孩、老人,或搜索走失小孩,包括精确到厘米的GPS定位,比如你去一个陌生的地方,找厕所,找窗口,甚至找警察。同时,不仅仅是你找东西,甚至还有可能东西找你,比如泊车后超过某个时间点,让车主动呼叫你,饭煮好了,电饭堡呼叫你,提前打开的空调使用室温保持到预定温度后,空调呼叫你等等。


智能搜索的产生与发展

传统搜索引擎的作用是简化搜索流程,帮助用户用更简单的方法筛选出目标信息,但随着网络上信息量的逐步增多,传统的搜索方式的一些缺陷也逐渐暴露出来——不能很好地理解人的查询请求、不能区分关键词的同形异义,也不能联想到相关同义词,更不可能考虑到关键词所处的特殊语言环境,这些缺点直接影响了搜索效率和搜索结果,使得信息获取的准确度加大很多。除此之外,传统的搜索方式还有着以下几点缺陷。

3.webp.jpg

图|传统搜索方式的缺陷

(1)信息分类缺乏有效性。要有效的对信息建立索引,需要对信息进行分类处理,传统的处理方式无法在词条的出现概率与文档的类别及长度间进行权衡,无法对导入资料库的返回信息进行合理的整理、分类。

(2)信息组织缺乏有序性。在众多随机、无序的信息中取出用户最有用的信息,现在的简单排序还无法达到要求。

(3)信息更新缺乏实时性。现在的搜索引擎还无法实时搜索最新的网络信息。

(4)信息评价缺乏有用性。关键词的数量并不能等同于信息的价值含量,单纯依靠关键词出现的频次与被检中次数并不能评价信息的有用性。

搜索引擎的关键问题是如何收集与整理网络信息,如何将网络信息有序化,目前这种将用户的请求简单的理解成字形而非内容的搜索方式其本身就存在着不足,人们需要一种更为高效的搜索引擎技术。

人工智能的出现和使用给传统的搜索带来了新的模式,智能搜索引擎是结合了人工智能技术的新一代搜索引擎,除了能提供传统的快速检索、相关度排序等功能,还能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能;将信息检索从目前基于关键词层面提高到基于知识(或概念)层面;对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等;具有信息服务的智能化、人性化特征;允许采用自然语言进行信息的检索,能够提供更方便、更确切的搜索服务。智能搜索引擎具有如下几个特征:

4.webp.jpg

图|智能搜索引擎的特征

(1)智能性。智能搜索引擎的搜索器可对特定站点或者遍历整个因特网自动完成在线信息的索引,再通过启发式学习采取最有效的搜索策略,选择最佳时机获取从因特网上自动收集、整理的信息。智能化搜索引擎可以将多个引擎的搜索结果整合,作为一个整体存放到数据库中。

(2)主动性。智能搜索引擎能通过观察用户的行为,了解用户的兴趣爱好;通过不断的训练学习,增长智能;通过用户对返回信息的评价,调整自己的行为。

(3)交互性。智能搜索引擎可以通过自然语言与用户交互。它采取诸如语义网络等智能技术,通过汉语分词、句法分析以及统计理论有效的理解用户的请求,并对搜索结果进行合理解释。

(4)个性化。智能搜索引擎有效的分类可为用户提供个性化的服务,允许用户为自己定制起始页面,选择感兴趣的内容和经常使用的服务放在该页面中。

目前的智能搜索引擎的研发主要有两大方向,一是基于机器翻译技术,利用计算机实现自然语言之间的转变,用户可以使用母语来搜索非母语的网页,并以母语浏览搜索结果;二是基于语义理解技术,通过搜索引擎技术与语言学的结合,开发检索词专用词典或是通过全文扫描和词间关系的分析,实现搜索引擎对搜索词在语义层次上的理解。

1、自然语言理解技术

所谓自然语言,也就是人们日常使用的各种通俗语言。自然语言理解是计算机科学在人工智能方面的一个极富挑战性的课题,其任务是建立一种能够给出像人那样理解、分析并回答自然语言的结果的计算机模型。从实用性的角度来说,我们所需要的是计算机能实现基本的人机会话、语义理解或自动文摘等语言信息处理功能。这其中要利用到汉语分词技术、短语识别技术、同义词处理技术等。

(1)汉语分词技术。中文的词与词之间没有界定符,需要人为切分。对于几个字的简单分词可能会有多种结果。因此,可以根据语料库进行总结,获得每个词的出现概率以及词与词的关联信息,再使用正向和逆向最大匹配法进行细切分,排除歧义,提高分词的准确性。

5.png

图|汉语分词技术

(2)短语识别技术。关键词查询要将查询条件分解成若干关键词,但这些关键词并不是孤立的,它们联合起来作为一个短语共同表达一个完整的含义。短语识别技术就是利用词与词之间的特定搭配和汉语语法规则,有效地兼顾关键词与它们之间的关系,从而合理地分词,更加准确地表述查询请求和文档信息。

(3)同义词处理技术。利用人工构造同义词库、蕴含词库等辅助词库,或是从语料库中自动取得同义词关系,搜索引擎能主动“联想”,提高信息匹配的准确度。

2、人机交互界面技术

人机界面技术的不同往往使得搜索引擎表现出不同的特色。

当前搜索引擎涉及的人机界面技术主要有4类:搜索请求提交技术、搜索结果表现技术、搜索向导技术以及搜索行为分析技术。搜索请求提交技术中包括多语言查询技术、编码转换技术、模糊语义查询、精确语义查询以及采用自然语言的搜索请求提交界面。搜索结果表现技术包括搜索结果的准确度及相关度、搜索结果的母语评价等。搜索向导技术则纯粹是网站设计上的界面技术。搜索行为分析技术的核心是跟踪分析用户的搜索行为,充分的利用这些信息来提高用户的搜索效率。搜索行为分析技术提高搜索效率的途径主要有两种:群体行为分析和个性化搜索。

3、智能搜索代理技术

6.webp.jpg

图|智能代理技术

智能代理又称智能体,是人工智能研究的新成果。智能代理技术以提供主动服务为主,能够将信息主动推送到用户面前,免去了用户被动搜索的困扰。其特点是具有不断学习、适应信息和适应用户兴趣动态变化的能力,从而能够提供个性化的服务。智能代理技术具有如下优势:

(1)智能性。具有丰富的知识和一定的推理能力,能分析用户的需求和揣测用户的意图,以便能完成较复杂的任务。而且它可以从经验中不断学习,以提高自己处理问题的能力。

(2)代理性。顾名思义智能代理是用户的某种代理,它可以代替用户完成一些任务并主动将结果反馈给用户。

(3)主动性。能根据用户的需求和环境的变化主动向用户报告并提供服务。

(4)协作性。能通过各种通信协议和其他智能代理进行信息交流,并可以相互协调共同完成复杂的任务。

(5)移动性。可以在网络上漫游到任何目标主机,并在目标主机上进行信息处理操作,最后将结果集中返回到起点,而且能随计算机用户的移动而移动。

智能代理主要分为客户端智能代理和服务器端智能代理。其中客户端智能代理技术以智能搜索代理技术为主,结合搜索引擎“面向主题”的检索模式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进行沟通、交换信息,从而使更多的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。

服务器端智能代理则通过引入用户反馈机制来完善检索机制,提高检索命中率,同时也可以提供面向个人的特殊检索服务。这种方式是记录该用户的查询踪迹,从而在用户再次登录时结合以往的用户检索记录来配合提供相关的检索服务。并且可以通过对用户的反馈意见进行跟踪,获取用户对结果的评价,以便提高检索质量。

4、书签驾驭技术

通过挖掘人们日常使用的书签(或收藏夹)的潜在价值,形成一个分类搜索体系,同时采用类似链接评价分析方法,对每一条记录的重要性进行评价并给出相应的分数。它更像是一个搜索引擎的辅助工具,帮助用户挖掘那些可能被大搜索引擎忽略掉的重要资源。此外,智能搜索引擎有可能还会用到文档信息压缩技术、P2P对等网络技术等以及一些其他的人工智能方法,譬如可以将知识库和推理机应用到搜索引擎中。

在实际应用方面,国内外很多应用了人工智能技术的搜索引擎也相继推出了一些或有趣或实用的功能。

在智能搜索出现以前,我们看到路边陌生的植物或花卉,想知道它们的种类或名字需要根据生物特征来进行关键词搜索和匹配,而通过人工智能图像识别技术,只需要简单拍下植物的图片,搜索引擎会自动进行信息匹配对比,快速识别出花的种类。此外,现在一些搜索引擎还会根据用户搜索的关键词以及浏览记录推送相关的信息和广告,搜索结果不再仅仅是罗列关键词匹配的信息,而是朝着更个性化的方向发展,例如搜索食物会出现附近的餐厅和特色食物推荐,搜索电影会出现附近的影院以及当前影院播放信息等等,从用户的角度出发,主动发现可能存在的需求。

7.webp.jpg

图|花卉识别示例

最近恰逢各大高校开学,智能搜索也适时刷了一次存在感。国内的搜索引擎公司联合清华大学首次推出了人工智能入学助手。该智能搜索助手能面向校园应用场景,以智能对话的交互方式,为入学新生提供公寓服务指南、校内地点查询和校史讲解等咨询服务,回答学生提出的各种问题,帮助入学新生快速熟悉校园生活,这一功能也得到了多方的认可和好评。

8.webp.jpg

图|智能入学助手实例

相比于传统的搜索方式,智能搜索具备以下几点优势:

9.webp.jpg

图|智能搜索的优势

(1)搜索分析准确恰当。由于采取了以知识库为基础的语义分析,在检索过程中,采用的不是关键词全文检索,而是基于概念的检索。再加上人工智能、自然语言处理、语料库语言学等方法,通过运用灵活的常识性联想功能,就能分析出用户的真正意图,从而给出准确的结果。

(2)搜索范围定位合适。由于采用知识(概念)检索技术,明确和缩小了搜索范围,减少了对无用信息范围的检索。同时它能支持全文检索及概念检索,满足了不同层次的需求。

(3)搜索过程交互智能。更智能的信息检索和导航服务将提供引导用户进行下一步查询的线索,在与用户交互的过程中为其检索提出详细的修正、改进或补充意见,通过与用户的一步步的交互,启发、引导用户表达出真正意图,快速找到他所真正需要的产品、信息。

(4)搜索结果综合性强。由于采用了综合知识库,搜索引擎将为之面貌一新,给用户提供更全面、更综合和更合理的知识框架,在这里,信息检索也许只是信息服务的一部分,通过对用户的意图分析自动生成更准确的索引摘要。

此外,智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。比如,既能处理HTML,又能处理SGML和XML文档以及其他类型的文档,如Word、WPS等,它应该可以支持多语言搜索,允许用户使用中文输入查询英文或其他语言的信息。


智能搜索的未来方向

10.webp.jpg

图|智能搜索的进化方向

互联网技术的快速发展,使网络已经成为了人们日常生活不可或缺的一部分,它作为信息发布、传播的主要方式,Web拥有几亿页面的分布式信息空间,目前仍在以130~200d翻一番的速度增加。随着科学技术的不断发展与成熟,网络搜索引擎也得到了快速发展,它是以一定的策略在互联网中搜集、发现、提取、处理信息的过程,通过为用户提供检索服务,发挥其信息导航的作用。

根据目前搜索引擎的现状,为适应不断增加的信息数量以及用户日渐苛刻的搜索需求,基于未来的搜索引擎应至少具备以下几个特点:

1、应具有元搜索功能,向集成化搜索引擎的方向发展,增强相互之间的协调和合作,避免重复、浪费的现象,提高搜索效率,使搜索结果更为全面、准确。

2、应研究多用途的搜索引擎,提高多途径的检索方式以及各种常用的信息搜索服务。应以搜索为中心,提供多种检索点,在内容上横向发展,开展诸如免费邮箱、新闻搜索等多种信息服务,开发一些专题性的功能,满足用户的不同需求。

3、应能提供基于大众的搜索分析,基于自然语言、关键词、概念和上下文的检索,具有相关反馈技术的检索智能查询路径选择。

4、应具有网络状态动态监视和数据库动态更新功能,做好索引数据库的信息收集工作,保证查询信息的准确性。

5、应能实现中文编码之间的自动转换、网页自动分类、自动文摘。从单一媒体向多媒体检索方向发展,实现多种媒体信息的统一管理、存储、检索和输出。

6、应采用最新的全文检索技术,具有内容分析和链接分析相结合的文本处理方法。

7、应考虑按时间、地域的顺序输出检索结果,以便用户选择所需的最新信息。查询结果文摘动态生成,结果自动综合分析和评分。

人工智能技术对搜索引擎的发展有极大的促进作用,搜索引擎不断更新的数据也给人工智能技术本身带来了海量的数据,人工智能技术使搜索引擎变得更易用、更亲切、更加个性化,而搜索引擎则让人工智能变得更加智慧,更能广泛的融进人们的社会生活。虽然这种改变还需要有一个不断改进的过程,但我们有理由相信,科技的发展必将促进智能搜索技术的成熟和推广,为用户带来更好的搜索体验。




我超级酷,但是如果你回复我的话我可以不酷那么一小会儿。


——来自logo.png


赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论