新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     >>计算机科学论坛<<     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 计算机科学论坛计算机技术与应用『 Web挖掘技术 』 → 信息检索介绍 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 6927 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 信息检索介绍 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客楼主
    发贴心情 信息检索介绍

    信息检索(Information Retrieval)是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的需求(User Information Need)的信息的学问。和数据库检索不同的是,一方面,IR处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured),最典型的例子如没有任何结构的文章或者有tag标记的Html文档;另一方面, IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。比如,查关于“伊拉克战争”的文章,可能会漏掉有关“巴格达”或者其它城市的战斗。因此,IR系统有可以相比较的性能评价指标。
    信息检索起源于图书情报的查询,一开始处理的文档数目和规模极其有限,随着硬件处理能力的提高、大规模数据以及WWW的出现,IR技术也日益发展。
    从处理对象的格式来说,现代IR不仅处理单纯的文本格式数据(text),而且处理包括图像、图形、音频、视频在内的各种载体格式,甚至WEB这种复杂的载体。
    从处理的技术来说, 包括自然语言处理(NLP)、人工智能、模式识别、机器学习、神经网络、数理统计、运筹学等等学科和科目在内的技术纷纷被应用于现代IR。
    从应用来说,IR技术不仅可以用于搜索引擎、信息代理等一些传统的信息应用,还可以用于话题跟踪、内容安全、生物信息学等度中应用。
    从概念或者名词来说,最近一些年来出现了WEB挖掘(WEB Mining)、知识挖掘(Knowledge Mining)、知识发现(Knowledge Discovery)、内容管理(Content Management)、内容计算(Content Computing)等等新名词、新学科,有些其实就是IR,有些可能学科渊源或者处理内容有所不同,但是IR技术是这些名词的主要内容,或者说这些都是传统IR的拓展,是现代IR的内容。可以说,现代IR的发展可以说是百花齐放、绚丽多彩,引无数英雄尽折腰。
    WEB的出现大大地促进了IR技术的发展。WEB上有异常丰富但又充满垃圾的信息资源,其中绝大部分有用的信息还没有发掘出来。这是因为目前还没有特别好的信息处理和检索工具。人们常常抱怨搜索引擎表现太差,可又没办法,只能用它。这一领域的开发仍然处于初级阶段。
    传统的数据库是静态的,结构化的,有中央严格组织的。而Web是自发形成和发展的,Web上的页面是动态的,半结构化的,通过超链接彼此缠绕。因此对Web的查询和对数据库的查询完全不同。
    据说WEB上每天要新增大约一百万个网页, 目前的网页数目达到上百亿。这给信息组织和检索技术提出了十分严峻的挑战。对如此海量的数据几秒钟内就要完成快而准的检索,传统的检索技术显得力不从心。
    为此,人们提出各种各样的办法:或对检索算法、数据结构加以改进;或在应用时,缩小查询范围局限于某一个领域,某一个站点;或采用一定人工参与;还有在用户查询界面上,诱导用户与机器多次交互,或采用图形界面;或对用户给出的查询悄悄做一下变换或修改。
    WEB上的大部分网页都是有一定格式的(如HTML),有丰富的标记。比如TITLE信 息、字体着重信息、大小信息,以及META信息等等或许都暗示了些什么?
    最富有革命性的想法是WEB的链接分析。人们意识到WEB上异常丰富的超链接是非常宝贵的资源,它在一定程度上反映了页面的意义。
    总而言之,八仙过海,各显神通。见仁见智,任君评说。
    今天的Internet还处于幼年时期,它一直在进化。很难想象它会发展成什么样子,或许那时我们对网络搜索的基本观念已经发生了根本变化。
    转自 http://www.cnblogs.com/ewebapp/articles/271987.html

       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/6/15 21:41:00
     
     GoogleAdSense魔羯座1984-1-11
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/4/28 17:23:31

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    35.156ms