计算机科学论坛--信息检索介绍

信息检索(Information Retrieval)是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的需求(User Information Need)的信息的学问。和数据库检索不同的是，一方面，IR处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured)，最典型的例子如没有任何结构的文章或者有tag标记的Html文档；另一方面， IR的检索结果也往往是不精确的，而不象数据库查询那样正确率一定是100%。比如，查关于“伊拉克战争”的文章，可能会漏掉有关“巴格达”或者其它城市的战斗。因此,IR系统有可以相比较的性能评价指标。
　　信息检索起源于图书情报的查询，一开始处理的文档数目和规模极其有限，随着硬件处理能力的提高、大规模数据以及WWW的出现，IR技术也日益发展。
　　从处理对象的格式来说，现代IR不仅处理单纯的文本格式数据(text)，而且处理包括图像、图形、音频、视频在内的各种载体格式，甚至WEB这种复杂的载体。
　　从处理的技术来说，包括自然语言处理(NLP)、人工智能、模式识别、机器学习、神经网络、数理统计、运筹学等等学科和科目在内的技术纷纷被应用于现代IR。
　　从应用来说，IR技术不仅可以用于搜索引擎、信息代理等一些传统的信息应用，还可以用于话题跟踪、内容安全、生物信息学等度中应用。
从概念或者名词来说，最近一些年来出现了WEB挖掘(WEB Mining)、知识挖掘(Knowledge Mining)、知识发现(Knowledge Discovery)、内容管理(Content Management)、内容计算(Content Computing)等等新名词、新学科，有些其实就是IR，有些可能学科渊源或者处理内容有所不同，但是IR技术是这些名词的主要内容，或者说这些都是传统IR的拓展，是现代IR的内容。可以说，现代IR的发展可以说是百花齐放、绚丽多彩，引无数英雄尽折腰。
　　WEB的出现大大地促进了IR技术的发展。WEB上有异常丰富但又充满垃圾的信息资源，其中绝大部分有用的信息还没有发掘出来。这是因为目前还没有特别好的信息处理和检索工具。人们常常抱怨搜索引擎表现太差，可又没办法，只能用它。这一领域的开发仍然处于初级阶段。
　　传统的数据库是静态的，结构化的，有中央严格组织的。而Web是自发形成和发展的，Web上的页面是动态的，半结构化的，通过超链接彼此缠绕。因此对Web的查询和对数据库的查询完全不同。
　　据说WEB上每天要新增大约一百万个网页，目前的网页数目达到上百亿。这给信息组织和检索技术提出了十分严峻的挑战。对如此海量的数据几秒钟内就要完成快而准的检索，传统的检索技术显得力不从心。
　　为此，人们提出各种各样的办法：或对检索算法、数据结构加以改进；或在应用时，缩小查询范围局限于某一个领域，某一个站点；或采用一定人工参与；还有在用户查询界面上，诱导用户与机器多次交互，或采用图形界面；或对用户给出的查询悄悄做一下变换或修改。
　　WEB上的大部分网页都是有一定格式的(如HTML)，有丰富的标记。比如TITLE信息、字体着重信息、大小信息，以及META信息等等或许都暗示了些什么？
　　最富有革命性的想法是WEB的链接分析。人们意识到WEB上异常丰富的超链接是非常宝贵的资源，它在一定程度上反映了页面的意义。
　　总而言之，八仙过海，各显神通。见仁见智，任君评说。
　　今天的Internet还处于幼年时期，它一直在进化。很难想象它会发展成什么样子，或许那时我们对网络搜索的基本观念已经发生了根本变化。
转自 http://www.cnblogs.com/ewebapp/articles/271987.html


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	35.156ms