新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     >>计算机科学论坛<<     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 计算机科学论坛计算机技术与应用『 Web挖掘技术 』 → [转帖]下一代搜索引擎的出路? 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 14953 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [转帖]下一代搜索引擎的出路? 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 [转帖]下一代搜索引擎的出路?

    转自:http://www.ir-lab.org/cgi-bin/newbbs/topic.cgi?forum=19&topic=95&show=25

    Aliweb被广泛认为世界上第一个搜索引擎,于1993年被研制并在1994年的第一届国际万维网会议上露面。(来源:Wikipedia)。而第一个支持全文检索的独立搜索引擎则是WebCrawler,现已转型为支持多个搜索引擎结果的搜索服务。(来源:Wikipedia)
    互联网浮沉12年,在Goolge、Yahoo!当道,昔日曾经辉煌的Lycos、Excite早已退出历史舞台的今天,搜索技术最明显的进步莫过于检索量增大,这从前段时间两家最著名搜索引擎公司(Google VS Yahoo!)正面交火中可以看到。当然,搜索结果精确性(能否匹配用户的搜索期望)的提高也在进步中,只是相对缓慢,或者说远未达到我们的期望。甚至于大家一致认为搜索技术名列市场前芧的Google,常常也会返回一些与搜索结果不相关的内容。而对于一名普通计算机用户来说,不可能要求他们掌握较高的搜索技巧,能够输入尽可能多提高搜索质量的关键字来获取自己想要的结果,因此其花费在筛选搜索结果的时间上会更加多。尽管不少公司都在为提高搜索质量作出各种努力和尝试,例如Google传统的PageRank技术,A9的OpenSearch,Vivisimo的搜索结果分类,Rollyo基于社会网络分享searchroll的个性化搜索引擎,Swicki的个人搜索引擎,LookSmart的“Find -> Save -> Share”服务以及近期推出的Google Base等,但暂时都不能够完全满足普通用户的实际需要。

    从上面提到的这些服务中我们不难发现,基于社会网络并按用户个性来建立搜索引擎是提高搜索质量的一个主要趋势,相信还有更多我所不知道的公司在做这方面的尝试。但问题在于之所以我认为这些服务不能够大面积的广泛推广应用(至少从目前来说是不能),是由于其使用还不够简单(simple),无法吸引更多的用户参与。不管是Rollyo的searchroll还是Swicki的很cool的个人搜索引擎,使用前都要求用户创建(Create),填上一些描述性文字(尽管已经是很精简的输入项),再进行分享。但就是这么简单的步骤,也可能将大量低门槛的潜在用户拒之门外,而仅成为geeks们浅尝即止的玩具。因为他们将不可能让用户产生使用依赖性,成为用户日常必不可少的工具之一。

    然而,并不是说基于社会性分享网络的搜索引擎是行不通的,我认为以del.icio.us或365key这种网摘为基础,结合全文搜索技术的服务将可能是提高搜索质量的解决方案之一。首先,像del.icio.us这样的网络书签是经过人工智能筛选出来的有价值的信息。在计算机去分析识别这些信息内容前就有大量用户为其挑选其高质量的信息源(spam排除在外)。其次,如Jan所说, “……del.icio.us顯示了每個搜尋結果得到多少人信任──越多人Bookmark,就是越得到肯定”。这样的搜索结果排名就可以建立于对该网络书签的认同上。另外,从我自身经历来看,当用户体验到网络书签的方便使用,并意识到可以通过其建立自己的个人知识库后,如果配合适用的工具将会很容易就“上瘾”,从而将其作为自己日常的必配工具。这样一来,以个人为单位的小型知识库可以组合重叠为一个超大型信息库,成为检索的信息源。用户的依赖性和信任度越高,信息源的成长就会越快速。虽然不可能包含互联网的所有信息,但高度精确的结果足以弥补沧海遗珠的遗憾。最后,用户的自定义标签(tag),或者用户定义标签的使用习惯,还可以对机器的智能识别以及提高搜索的精确度提供一定的参考价值。

    “搜索引擎+社会性书签”这一模型当然也存在不少问题。比如:可能存在的spam问题。现在del.icio.us没受太多污染或许是因为相对于海量的使用搜索引擎或Email的用户来说,del.icio.us用户还是极其少的(谁知道现在del.icio.us注册用户有多少,请告诉我),也还未成为人们获取信息的主要途径,所以spam制造者们还没盯上它。另外与浩瀚的互联网信息比较来看,del.icio.us被收藏的内容也仅是一小部分,涵盖的信息面还不足广,某些行业的信息占了较大比重,如IT、business等(仅属个人判断,无任何资料支持)。

    从实施角度来看,推广这种模型的搜索服务可以从行业用户为对象,建立面向不同行业的搜索服务。因为只有当用户从该服务中得到了实际好处,该服务的用户粘度才有可能增强,促使搜索质量得到相应提高。而可预见的是,行业用户使用这种服务,除了可积累自己的知识库外,在知识检索的效率上肯定会有所提高,是推广的卖点之一(从应用来看,digg.com的digg模式值得参考)。“搜索引擎+社会性书签”这种搜索服务的技术实现并不困难,仅利用del.icio.us和Goolge的API应该就能实现基本功能。关键在于该服务的使用模式和互动设计,应尽量多的从社会学和人机交互的角度去考虑。


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/1 13:44:00
     
     cautonwong 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:7
      积分:82
      门派:XML.ORG.CN
      注册:2006/10/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给cautonwong发送一个短消息 把cautonwong加入好友 查看cautonwong的个人资料 搜索cautonwong在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看cautonwong的博客2
    发贴心情 
    有见地啊
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/10/9 20:50:00
     
     richardjya 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究汇编)
      文章:32
      积分:224
      门派:XML.ORG.CN
      注册:2007/7/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给richardjya发送一个短消息 把richardjya加入好友 查看richardjya的个人资料 搜索richardjya在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看richardjya的博客3
    发贴心情 
    现在有没有搜索引擎+社会性书签的原型系统?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/27 9:46:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/4/19 11:06:35

    本主题贴数3,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    42.969ms