新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     >>计算机科学论坛<<     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 计算机科学论坛计算机技术与应用『 Web挖掘技术 』 → 热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作者梁斌先生作客论坛,开辟答疑专贴! 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 225453 个阅读者浏览上一篇主题  刷新本主题   平板显示贴子 浏览下一篇主题
     * 贴子主题: 热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作者梁斌先生作客论坛,开辟答疑专贴! 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     liangbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:30
      积分:433
      门派:XML.ORG.CN
      注册:2007/10/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liangbin发送一个短消息 把liangbin加入好友 查看liangbin的个人资料 搜索liangbin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看liangbin的博客楼主
    发贴心情 

    (1)
    PageRank是典型的稀疏阵的计算,其实有很多简化的方法,即如计算siterank,将page级的计算转化到site级的计算。
    (2)
    搜索引擎就可以看作是一个数据挖掘系统,当然实际的方法和传统数据挖掘有很大区别。
    这个问题比较大,一般来说搜索结果分为这样几个部分
       1)parse   网页的解析  
       2)analysis  网页的数据结构化,分析等
                antispame
                web quality
                        page rank
                        other ranks
                ...

       3)index
              distributed index
       4)query
              match rank
              other rank
              summay
           这个问题比较大,几乎搜索的方方面面都在为最后的效果发挥巨大的作用。

    第三个问题,搜索引擎目前主要覆盖的是大众的兴趣,就像做一个春节晚会,各种资源都具备了,就是不能让全国人民满意,我想我们任何人去办这台晚会都不能做到让任何人都满意。当然努力的目标是让更多的人满意,个性化的搜索,新闻推送目前都在研究和尝试,最终做到让尽可能多的人满意,照顾尽可能多的人的多方面需求。    


    以下是引用vanway在2008-5-19 13:17:00的发言:
    看到本文才注册了这个帐号
    国内讲搜索引擎方面的书还不多,感谢梁先生为搜索引擎技术的普及和发展所作的工作
    在这里,想请问梁先生三个问题:
    1、据我所知,搜索引擎一个很重要的方面就是其效率,google的page rank算法,作为一个巨大矩阵的运算要实现,也是由于其非常好的算法实现。梁先生能指导一下相关方面的研究资料吗?
    2、同样,数据挖掘之与搜索引擎结合,也同样存在着算法效率的问题。或采用相对简单的数据挖掘算法,或设计结合的模式,或优化数据挖掘的实现。此方面相关知识,能否请梁先生不吝赐教
    3、也是我在工作中一直遇到的问题,就是人们“关心”的概念,当我们在做聚类和分类的时候,我们可以用xxx算法,得到yy%的结果。可是我们得到的结果是否是人们感兴趣,甚至人和人感兴趣的层次和角度也不同,或者说,需要根据相同问题的不同层次或角度来解决问题。请问,您的工作中遇到相关问题,一般会采用什么样的策略。

    感谢梁先生百忙之中的赐教


    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/5/19 21:24:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/18 13:55:21

    本主题贴数78,分页: [1] [2] [3] [4]... [8]

     *树形目录 (最近20个回帖) 顶端 
    主题:  [BLUE]热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作..(1940字) - admin,2007年10月22日
        回复:  刚借到一这本书,(23字) - miracle2008,2008年12月10日
        回复:  梁老师您好我现在硕士论文马上就要开题,我的研究方向是web数据挖掘,看了一些文章但是没什么收获,..(183字) - sesamfox,2008年10月31日
            回复:  从实验室的情况看,目前比较具有商业价值的是这样一些研究课题。(1)舆情的分析,新闻或者报道的正负..(772字) - liangbin,2008年11月1日
        回复:  梁老师有没有个人BLOG类的呢?很想关注下,你对搜索引擎的相关看法!你的《走进搜索引擎》上周..(100字) - amoysem,2008年10月21日
            回复:  我目前没有blog,我经常活跃在水木清华BBS的搜索引擎版,大家可以去哪里找到我发的一些文章。h..(329字) - liangbin,2008年10月21日
        回复:  看到本文才注册了这个帐号国内讲搜索引擎方面的书还不多,感谢梁先生为搜索引擎技术的普及和发展所作的..(802字) - vanway,2008年5月19日
            回复:  (1)PageRank是典型的稀疏阵的计算,其实有很多简化的方法,即如计算siterank,将p..(1834字) - liangbin,2008年5月19日
        回复:  正在学这个(23字) - wulin5050,2008年5月18日
        回复:  very good!(10字) - zeng16107,2008年5月15日
        回复:  Mr. Liang is very good.(23字) - inswords,2008年5月13日
            回复:  请教梁老师,现在对于个性化搜索,一些主流厂商大多采取什么理论和策略来实现的呢?另外,您觉得支持向..(159字) - hurricanez,2008年11月13日
        回复:  虽然我没有学过搜索方面的知识,但是对计算机搜索功能很是钦佩的确给了我们很多帮助,有兴趣了解以下这..(110字) - para_zhang,2008年4月23日
            回复:  应该是SEO吧 不知道梁老师对SEO的看法是?就是说:1.梁老师感觉SEO这个职业如何?..(138字) - amoysem,2008年10月30日
                回复:  [quote][b]以下是引用[i]amoysem在2008-10-30 21:13:00[/i]..(662字) - liangbin,2008年11月1日
                    回复:  [quote][b]以下是引用[i]liangbin在2008-11-1 20:07:00[/i]..(767字) - amoysem,2008年11月1日
            回复:  希望能够从梁老师那边学到更多的知识 不知道梁老师对企业在搜索引擎营销,有什么见解呢?..(85字) - amoysem,2008年10月22日
                回复:  你的问题是否可以具体一些,比如关于搜索引擎关键词广告,竞价排名,或者SEO,还是其他。[q..(256字) - liangbin,2008年10月30日
        回复:  梁老师: 你好,看了你的书,觉得蛮不错,能否加你的在线联系方式(如QQ或MSN),方便请教..(94字) - fangyonggo,2008年4月21日
        回复:  看到这么多人推荐,也要看看去。(30字) - krens,2008年4月16日

    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    242.188ms