以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  [BLUE]热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作者梁斌先生作客论坛,开辟答疑专贴![/BLUE]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=54192)


--  作者:admin
--  发布时间:10/22/2007 10:28:00 PM

--  [BLUE]热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作者梁斌先生作客论坛,开辟答疑专贴![/BLUE]

搜索引擎是近年来的热门话题,在此隆重向大家推荐一本关于搜索引擎入门的好书:

——[URL=http://www.china-pub.com/computers/common/info.asp?id=36538]《走进搜索引擎》[/URL],电子工业出版社,2007年10月出版。 (http://www.china-pub.com/computers/common/info.asp?id=36538)。

该书以非常浅显的语言介绍了搜索引擎各个构件的主要工作原理,非常容易理解,尤其适于初学者入门。对于希望了解搜索引擎原理、希望进入搜索行业的读者,本书相当值得一读!

本书作者梁斌先生从事搜索引擎研究多年,经验丰富,兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。

关于本书的疑问或者其他搜索引擎技术、营销方面的问题,读者朋友们可以在此回帖提问,他会在此为大家作出解答。

================
该书有关信息如下
================

内容简介

在网络普及的今天,人们经常在信息海洋中彷徨,在万维网迷宫般的复杂与魅力之间挣扎。直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。.
正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进搜索引擎。在那里,你必将会被搜索引擎精致的设计和宏伟的架构所征服。..
本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。
本书作为搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等。
本书是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。

作者介绍

梁斌 毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。...



--  作者:liangbin
--  发布时间:10/22/2007 10:40:00 PM

--  
计算机科学论坛的各位站友大家好
      我是《走进搜索引擎》作者--梁斌,,很高兴有机会在这里与大家交流。如果大家有涉及本书内容的问题,或者其他有关搜索引擎技术和营销的问题,都欢迎大家在此讨论。
   



--  作者:clandy
--  发布时间:10/23/2007 1:36:00 AM

--  
好啊,顶你,顶你,顶痛你
--  作者:DMman
--  发布时间:10/23/2007 4:29:00 PM

--  
多谢了。~~
请问下:诸如百度 搜狐等等做搜索引擎研究的人员,应该是做研究工作,如果过几年老了的话,缺乏创造力了,会不会被淘汰?又将去向何方?
谢谢~


--  作者:liangbin
--  发布时间:10/23/2007 8:52:00 PM

--  
回DMan
首先,搜索引擎公司一般分为这样一些工作
(1)研究人员
(2)开发人员
(3)运维人员
(4)测试人员
(5)产品人员
一般技术工作是第一,二,三类,由于商业化的搜索引擎的全部历史也不过10年左右,google成立于1997年9月,搜索引擎公司的技术人员一般都比较年轻,一般都没有很好的考虑关于职业未来这样一个问题,我个人认为.
按照科研人员的角度看,肯定是越老越成熟,越有积累,一般在研究领域,科研方向都是有经验的教授,博导确定的,可见,年龄对于科研来说是有利的.
按照工程师的角度考虑,由于工程师一般都是完成一些理论上决定可以做的工作,工程师更大程度上是做一种"实现"的工作,因此只要有需求,工程师的需求总是存在的,当然年龄大了,会受到一些影响,搜索引擎公司一般是不加班的,所以应该不是问题.
按照运维工程师的角度看,一般都是处理一些面向流程,面向软硬件环境的例行工作,因此也是年龄越大,越有经验.

--  作者:DMman
--  发布时间:10/23/2007 9:27:00 PM

--  
多谢梁老师指导。我提出这个问题主要就是因为盛传“IT行业是吃青春饭”一说,我觉得所谓“吃青春饭”的是指“软件民工”(只做些重复性编程等工作),要想在IT走得更好、更远,一是做研究人员,而是做项目管理人员(也就是梁老师所言的“工程师”罢)。
看来搜索引擎确是一个好的方向,希望自己下一步有时间能好好研究下~

--  作者:liangbin
--  发布时间:10/23/2007 9:36:00 PM

--  
回DMman:
我所在的实验室今年暑假开始了首届暑期实习计划,我也带了一位清华的在读研究生做一个数据挖掘工作,效果很好,明年也会继续这个计划,如果你有兴趣我可以帮你推荐。
--  作者:timothy
--  发布时间:10/25/2007 8:30:00 PM

--  
梁老师:
      您好!
      非常感谢您在这么一个非常及时的时刻,带着您的书来到这个论坛,我有个别问题想问一下您!
      我们实验室准备做一个基于内容的数字媒体资源库检索平台,是为大型甚至是全国的卡通动漫基地提供一个资源共享协作平台. 其实该检索平台就是一个对海量非结构化的资源进行检索.
      我认为,平台效率的一个很大的关键就是检索效率,就是要提高检索引擎的效率.
      我的几个问题如下:
      1. 检索引擎和搜索引擎有区别吗?如果有,区别在哪?
      2. 有没有更好的,开源的,能执行大规模检索的引擎?(我本来想用Lucene)
      3. 您对基于语义网的语义搜索引擎是如何看待的!
      谢谢!
--  作者:liangbin
--  发布时间:10/25/2007 9:17:00 PM

--  
回timothy:
   你说的检索引擎应该特指数字图书馆的那种检索,我并不了解,不便比较.
   Lucene应该是目前最好的开源索引之一,当然和商用搜索引擎的索引相比差距很大,不过如果个人搭建搜索引擎可以从这个开始做.
   语义搜索引擎只是停留在概念上,未来是如何,我也看不准, 微软在搜索引擎上将搜索引擎和数据挖掘作为一个组,和语义搜索引擎相比,微软提倡的对象化搜索,更可能是即将到来的新兴搜索引擎方向.
--  作者:timothy
--  发布时间:10/26/2007 1:07:00 PM

--  
对象化搜索???
      第一次听说,google了一下,好像也没有任何资料,梁老师能否再说详细一点,就当介绍一个概念吧!
--  作者:liangbin
--  发布时间:10/26/2007 8:41:00 PM

--  
to timothy:
   使用 "Object-level Search Engine"搜索可以会有很多信息。
   另外关注微软亚研院,搜索引擎和数据挖掘研究组的相关论文,或者搜索“马维英”。
   另外我的书中也简单介绍了一些情况,可以参考。
--  作者:sunjw
--  发布时间:10/27/2007 8:30:00 PM

--  
关注ing~
--  作者:timothy
--  发布时间:10/29/2007 6:03:00 AM

--  
谢谢梁老师,您的书我订购了!!!
      支持!
--  作者:liangbin
--  发布时间:10/29/2007 7:53:00 AM

--  
to timothy:
    谢谢您的支持,希望该书能有助于了解搜索引擎的相关概念和知识。
--  作者:bzbc
--  发布时间:10/29/2007 8:48:00 AM

--  
很多人都说随着web 3.0的到来,语义网搜索引擎将成为搜索引擎新的霸主,我现在参与的项目也是用本体做的一个搜索引擎.这个问题您怎么看?
--  作者:liangbin
--  发布时间:10/29/2007 4:09:00 PM

--  
to bzbc
    ontology这个领域我了解很少,不敢乱说,我想可能本体的搜索引擎,就是所谓的object-level search engine.微软在这方面颇多建树,product search和guanxi search都可能是未来的方向。另外机器翻译,跨越语言的藩篱也是学界颇为关注的热点。
--  作者:九月衣
--  发布时间:10/30/2007 9:48:00 AM

--  
梁老师:
      您好! 目前我在公司里边负责管理几个adwords账户,对这个方面我没有什么经验,想提高自己,但是又不知道从何入手,您有什么建议么?

--  作者:hongjuesir
--  发布时间:10/30/2007 2:06:00 PM

--  
真是一个特别的时刻,我的兴趣和焦点也在搜索。

我已经看了梁老师书的目录,感觉很不错,尤其关于pagerank的算法以及倒排索引的结构,准备买下一本来。

我从6月份开始,一致在阅读和学习Lucene的资料,根据Lucene in Action上面的说法,众多搜索引擎在索引结构上都很相似----倒排索引,索引结构相似,那么建立索引和查询索引的算法也不会有太大的差异。而真正造成他们不同的是排序算法,google用的是pagerank,而lucene也是有相应的score的计算,实际上在建立索引的时候,对每个文档设置文章中的每个域都可以设置它的boost factor值。

信息量永远是无限的,却有永不疲倦的爬虫,现在的索引以及算法也可以做到足够快的定位内容,而真正体现价值的应该是rank算法,拯救人类注意力,也就是如何搜的准的问题。

对于搜索大体的架构我已有一些了解,并也用lucene.net和lucene做了一些实践的工作,但是由于接触时间不长,对于rank算法,还不太了解,我觉得这不仅仅是一个算法的问题。我甚至认为google之所以强,我们不仅仅要看它的搜索技术,还要看它的js技术,为什么是js,因为重视js就是重视用户本身,重视界面的人性化,只有重视用户,它才知道我们要什么,所以它的pagerank才要胜出一筹!

我希望能和梁老师有更进一步的学习和了解。


--  作者:liangbin
--  发布时间:10/30/2007 3:34:00 PM

--  
to hongjuesir
    如果说本书入门,我个人认为两个地方讲的比较透彻,一个就是PageRank(也叫Google Rank),本书很详细的介绍了其基本想法,理论依据,收敛性等,本来书中写了大段理论推导,后感觉过于冗长,不利于入门就删除了,但是给出了论文推荐,希望大家在学习随机过程的相关知识后能有更加深刻的理解。另一个就是TF/IDF。
   正如你所说,Rank技术足以称为搜索引擎一个时代的标志,然而目前Rank技术都比较成熟,可研究的领域不多,据我了解,目前主要集中在以下几点上。
   查询的时效性研究,时效性的查询更加需要考虑时间在排序上的重要性。
   查询类型的研究(信息类,导航类,综合类),不同类型在排序上也有很大区别。
   网页垃圾识别和处理,针对rank算法作弊的研究即具有理论意义,更加具有应用价值。



--  作者:liangbin
--  发布时间:10/30/2007 3:39:00 PM

--  
to 九月衣
   adwords,是否指得是google adwords,这方面我不了解。能把你的问题具体化一些吗?比如要想达到某个目标,如何入手,例如如何提高网站排名等。
--  作者:mikil
--  发布时间:10/30/2007 5:47:00 PM

--  
语义搜索引擎就业前景好不
--  作者:mikil
--  发布时间:10/30/2007 5:51:00 PM

--  
我师兄买了这本书,我先好好看看
--  作者:liangbin
--  发布时间:10/31/2007 8:34:00 AM

--  
to mikil
    语义搜索引擎就业前景我并不了解,通常除非应聘副研究员需要参考研究背景以外,其他的都可以在搜索引擎公司慢慢学习。我个人认为就业前景好的还是那些基础扎实,工作能力强的人。另,感谢你和你师兄的支持。

--  作者:hjx_221
--  发布时间:11/2/2007 10:25:00 AM

--  
来听听王老师的教诲
--  作者:liangbin
--  发布时间:11/3/2007 11:02:00 AM

--  
今天看了下china-pub的书评发现,发现居然有9条评论,很多网友给与了很好的评价,出版社也有一些评价,当然也终于有谴责该书的人了,我一直忐忑不安的担心还是发生了.
     书的排版上,我本人也觉得不妥,作为一本介绍原理的入门书籍,因此刻意控制了篇幅,希望大家在没有阅读障碍的情况下,快速看完,提高效率,出版社也一再希望我多写一些字数,大家都读了很多书,书中"注水"的情况是很多的,其实是浪费了大家的阅读时间,搞科研的人都有这个体会,低质量的书籍和论文是很多的,篇幅很大,内容不多,这本书不敢说惜墨如金,但是能留给读者看的内容是在大量精简后的。我想看过这本书的人都能够体会到。很多地方是不惜笔墨直到讲清楚为止,从不回避。
      在书的写作过程中,我总是担心这里或者哪里,写得是否过浅了,或者过深了。担心作为一本书后不被读者接受。和搜狐技术副总裁所说的一样,作为专业地传播搜索引擎技术,这本书力求满足搜索引擎门槛外的人,而不是门槛内的人,因此不被一些读者接受总是不可避免的。
      在书完成后,我也给了很多包括清华北大在内的研究界的知名博导送去该书,希望能够进一步改进,以不辜负读者的期望,能够重新印刷和再版时改进。
     我们的国家在很多领域的技术都还很落后,特别是计算机领域,就搜索引擎行业来说,我们希望有更多的青年学生能够投入到这个行业,作为行业内的人,我认为是有责任站出来写专业的图书,给与专业的指导。北大天网实验室是先行者,虽然我们的实验室起步迟了,但是如果能够在有限的精力和资历为广大读者提供入门的帮助,我个人深感荣幸,希望大家努力,共创美好未来。


--  作者:DMman
--  发布时间:11/3/2007 12:44:00 PM

--  
只要是包含了作者的思考和心血的书,就算得上是一本好书。
有的书倒是内容博大精深,但东拼西凑,恐怕作者自己都不明白说的是什么。这样的书无疑是深恶痛绝的。
每本书都是面向一定的读者群,很难出现像《算法导论》这样经典的书,低级读者可以入门,高级读者也可以发现自己没有领悟和注意的东西。毕竟是4位超级大牛打造出来的。
总之,只要是包含了作者的思考和心血的书,就算得上是一本好书。
我们感谢您对中国搜索引擎行业的研究和推广所做的贡献!


--  作者:xudengke
--  发布时间:11/25/2007 12:06:00 PM

--  
好啊。
支持你。
我最近也借了本书看。
--  作者:gazi945
--  发布时间:11/25/2007 2:00:00 PM

--  
反响不错,感谢梁老师,打算买本看看。
--  作者:liangbin
--  发布时间:11/27/2007 8:26:00 PM

--  
to xudengke,gazi945:
    谢谢,希望此书能够对你们的学习有帮助,我一个大学同学到我这里做客,住了一晚,结果他一晚加一个上午居然就把这本书看完了,这本书的门槛不高的,例子很多,很容易懂,延伸阅读的部分有相应的论文,大家可以找来深入研读。

--  作者:qgs5665443
--  发布时间:12/4/2007 12:38:00 PM

--  
请问学习搜索引擎需要学什么样的先修课,如随机过程,
数学需要达到什么样的程度才可以看懂你的书和李晓明老师的书,我看了一下李晓明老师的书,好象用了很多的数学知识
--  作者:liangbin
--  发布时间:12/5/2007 9:00:00 PM

--  
以下是引用qgs5665443在2007-12-4 12:38:00的发言:
请问学习搜索引擎需要学什么样的先修课,如随机过程,
数学需要达到什么样的程度才可以看懂你的书和李晓明老师的书,我看了一下李晓明老师的书,好象用了很多的数学知识

如果你需要了解搜索引擎的原理不可避免需要一些数学知识,概率可能需要的多一些,另外本科的微积分等也有使用,都是基础,你说的随机过程在理解PageRank时需要一些,但是不是转研的很深,了解基本结论就可以了,就像工科数学大部分是公式,证明的东西并不多。

李晓明老师的书很不错,可以仔细专研一下。


--  作者:wooq
--  发布时间:12/16/2007 1:58:00 AM

--  
应该是本很不错的书
--  作者:liny
--  发布时间:12/16/2007 6:33:00 PM

--  
书里介绍索引的内容有多少?深度怎么样?

想问梁老师关于存储的看法即搜索引擎的存储系统将朝什么方向发展,将如何影响IR领域?


--  作者:fs_xxzx
--  发布时间:12/17/2007 9:32:00 AM

--  
本书对提高信息素养很有好处.

--  作者:liangbin
--  发布时间:12/20/2007 3:12:00 PM

--  
以下是引用liny在2007-12-16 18:33:00的发言:
书里介绍索引的内容有多少?深度怎么样?


                     ~~~~~~~~~~~~~~这应该是一个比较主观的问题,建议你不妨去书店翻翻,实际地看一看。

想问梁老师关于存储的看法即搜索引擎的存储系统将朝什么方向发展,将如何影响IR领域?                                                     
   
~~~~~~我想你可能是想了解索引系统,倒排表方面的信息。

索引和查询系统是相互联系的,查询的需求驱动着索引的设计,而不是相反,从目前看倒排索引是大规模数据全文检索的最佳方式,另外还有一些其他方式,比如位图,署名文件等,(可以参见Managing gigabytes一书,此书国内96年引进过第一版,可以去学校图书馆借着看),书中详细比较了这些索引方式的优劣。

IR从目前看来主要的困扰,或者说业界最需要解决的问题大致是这样几个方面
(1)排序,如何更好的排序使得最能符合用户的查询企图(索引设计中也都考虑到了查询中排序的需要),关于排序,微软研究院也有很多不错的研究成果,可以参考。
(2) 反垃圾,反作弊,这还是与排序有关,排序涉及了很多利益,因此大量的作弊导致搜索质量很低,搜索引擎需要大量的精力对付恶意SEO的一些做法。
(3)专项搜索,目前可以看到很多这样的专项搜索,例如少儿搜索,图书搜索,论文搜索等,搜索引擎越来越开始照顾非主流的人群。专项搜索需要很多技术,例如分类,信息抽取,定向抓取等技术。

[此贴子已经被DMman于2008-1-7 16:47:53编辑过]

--  作者:NeuFlyfox
--  发布时间:12/26/2007 10:14:00 AM

--  
这本书一上市,就在china-pub上买了这本书,我是网络方向的学生,对搜索还是很感兴趣的,觉得从这本书中收获不少,对于不是很熟悉搜索引擎的朋友来说,还是很值得一读的。
--  作者:liangbin
--  发布时间:1/1/2008 6:12:00 PM

--  
以下是引用NeuFlyfox在2007-12-26 10:14:00的发言:
这本书一上市,就在china-pub上买了这本书,我是网络方向的学生,对搜索还是很感兴趣的,觉得从这本书中收获不少,对于不是很熟悉搜索引擎的朋友来说,还是很值得一读的。


谢谢。


--  作者:changleqy
--  发布时间:1/2/2008 7:59:00 PM

--  
梁老师您好:订了一本书,明天就能到了,我想这应该是一本对我的学习很不错的书。
我学的专业是管理工程(偏工),以前做过一段时间人机博奕,股票数据统计分析之类的研究工作,对WEB智能搜索也比较感兴趣。我想问一下,通过您所介绍的搜索技术,能不能和我以前所做的一些工作相结合,进行一些比较新的研究,(我的主要目的是想在着几年写几篇核心论文)谢谢!

--  作者:liangbin
--  发布时间:1/5/2008 11:06:00 PM

--  
以下是引用changleqy在2008-1-2 19:59:00的发言:
梁老师您好:订了一本书,明天就能到了,我想这应该是一本对我的学习很不错的书。
                                                        ~~~~~~~~~~~~~~~~谢谢
      我学的专业是管理工程(偏工),以前做过一段时间人机博奕,股票数据统计分析之类的研究工作,对WEB智能搜索也比较感兴趣。我想问一下,通过您所介绍的搜索技术,能不能和我以前所做的一些工作相结合,进行一些比较新的研究,(我的主要目的是想在着几年写几篇核心论文)谢谢!
     ~~~~~~~~~~~~~~~~~~搜索引擎目前有很多数据挖掘的工作,大概我列一下,你可以参考
(1)query suggestion
(2)hint(相关搜索)
(3)query correcting(纠错)
(4)中文分词
。。。
应用还是很广泛的,我个人感觉股票统计工作和预测网页的排序可能有些方法上相通的关系,有个组在做User Rank类似的工作,通过用于的已有点击情况对未来的点击进行预测。
    
    


--  作者:changleqy
--  发布时间:1/6/2008 8:45:00 PM

--  
以下是引用liangbin在2008-1-5 23:06:00的发言:
[quote]以下是引用changleqy在2008-1-2 19:59:00的发言:
梁老师您好:订了一本书,明天就能到了,我想这应该是一本对我的学习很不错的书。
                                                         ~~~~~~~~~~~~~~~~谢谢
       我学的专业是管理工程(偏工),以前做过一段时间人机博奕,股票数据统计分析之类的研究工作,对WEB智能搜索也比较感兴趣。我想问一下,通过您所介绍的搜索技术,能不能和我以前所做的一些工作相结合,进行一些比较新的研究,(我的主要目的是想在着几年写几篇核心论文)谢谢!
      ~~~~~~~~~~~~~~~~~~搜索引擎目前有很多数据挖掘的工作,大概我列一下,你可以参考
(1)query suggestion
(2)hint(相关搜索)
(3)query correcting(纠错)
(4)中文分词
。。。
应用还是很广泛的,我个人感觉股票统计工作和预测网页的排序可能有些方法上相通的关系,有个组在做User Rank类似的工作,通过用于的已有点击情况对未来的点击进行预测。
     
     
[/quote]


非常感谢!
--  作者:xq800612
--  发布时间:1/7/2008 6:37:00 PM

--  
哪里有的卖哦?
--  作者:killazy
--  发布时间:1/15/2008 8:35:00 PM

--  
学到不少东西。
我以前曾用Lucene做过一个站内的全文检索,毕业设计导师给了一个语义数据挖掘的题,现在时间紧迫,本身是自动化专业,相关的知识不是很健全,不知道该怎么办?大家有没有什么意见,我的毕业论文应该写些什么东西呢?如何讲语义数据挖掘和信息检索结合起来呢?
--  作者:liangbin
--  发布时间:1/23/2008 12:45:00 PM

--  
以下是引用killazy在2008-1-15 20:35:00的发言:
学到不少东西。
~~~~~~~~~~~谢谢。
我以前曾用Lucene做过一个站内的全文检索,毕业设计导师给了一个语义数据挖掘的题,现在时间紧迫,本身是自动化专业,相关的知识不是很健全,不知道该怎么办?大家有没有什么意见,我的毕业论文应该写些什么东西呢?如何讲语义数据挖掘和信息检索结合起来呢?
~~~~~~~~~~~~~毕业论文做好一个点就可以了,感觉你方向比较大。


--  作者:liangbin
--  发布时间:1/30/2008 4:29:00 PM

--  
通过搜索引擎找了些关于本书的评价,感觉很欣慰。
http://www.seo-college.cn/seo/zoujin-sousuo-yinqing.html
http://gnoyong.com/tech/?p=12
http://www.51leifeng.net/thread-7087-1-1.html
http://www.seozh.cn/note/6.htm
http://www.timev.com/vp/seo/20080129/10071.html
http://www.seotest.cn/blog/see-sourich-com.html
http://column.iresearch.cn/u/kyw/archives/2008/15857.shtml
http://www.tntbbs.com/viewthread.php?tid=14510&page=1&authorid=7644
http://www.hunter-u.cn/blog/index.php?go=category_3
http://fanfou.com/%E9%A5%AD%E7%9F%A3/p.4
http://topic.csdn.net/u/20071105/18/00ae9d8f-f3b4-4d0d-992f-a217a8f83d99.html
http://rudeman.blog.51cto.com/rss.php?uid=282865
http://www.zhuaxia.com/pre_channel/4748644/2
http://hi.baidu.com/djjxmu/blog/item/37e5982564dfa86335a80f6a.html
http://www.softcon.cn/export/sites/softcon/downloads/shumu.xls
http://zeddius.spaces.live.com/Blog/cns!2916695FA7B7532B!1409.entry
http://www.sunnyidea.com/post/294.html
http://www.seostars.cn/post/seo-tu.html
http://www.seocollege.cn/seo/hanjia-seo-shenghuo.html
http://www.tntbbs.com/redirect.php?goto=findpost&pid=49021&ptid=14510
http://www.tntbbs.com/archiver/tid-14510.html
http://www.hunteru.cn/blog/read.php?87
http://www.china-pub.com/STATIC07/0801/zh_px_080116.asp


[此贴子已经被作者于2008-1-30 17:58:27编辑过]

--  作者:ecctao
--  发布时间:2/20/2008 11:57:00 AM

--  
书里面的关于怎么优化的知识有吗?
想了解下,如果有的话!
--  作者:gung
--  发布时间:2/22/2008 10:37:00 AM

--  
好啊,顶你,顶你,顶痛你
--  作者:aigo007
--  发布时间:3/7/2008 6:52:00 PM

--  
虽然我的方向并不是搜索引擎,但我还是很钦佩这些研究人员。因为这些技术改变了我们的生活,提高了我们的工作效率,在此表示感谢了,并希望中国人在这条路上走得个更领先。
--  作者:xuan_yuan
--  发布时间:3/11/2008 7:00:00 PM

--  
以下是引用liangbin在2008-1-30 16:29:00的发言:
通过搜索引擎找了些关于本书的评价,感觉很欣慰。
http://www.seo-college.cn/seo/zoujin-sousuo-yinqing.html
http://gnoyong.com/tech/?p=12
http://www.51leifeng.net/thread-7087-1-1.html
http://www.seozh.cn/note/6.htm
http://www.timev.com/vp/seo/20080129/10071.html
http://www.seotest.cn/blog/see-sourich-com.html
http://column.iresearch.cn/u/kyw/archives/2008/15857.shtml
http://www.tntbbs.com/viewthread.php?tid=14510&page=1&authorid=7644
http://www.hunter-u.cn/blog/index.php?go=category_3
http://fanfou.com/%E9%A5%AD%E7%9F%A3/p.4
http://topic.csdn.net/u/20071105/18/00ae9d8f-f3b4-4d0d-992f-a217a8f83d99.html
http://rudeman.blog.51cto.com/rss.php?uid=282865
http://www.zhuaxia.com/pre_channel/4748644/2
http://hi.baidu.com/djjxmu/blog/item/37e5982564dfa86335a80f6a.html
http://www.softcon.cn/export/sites/softcon/downloads/shumu.xls
http://zeddius.spaces.live.com/Blog/cns!2916695FA7B7532B!1409.entry
http://www.sunnyidea.com/post/294.html
http://www.seostars.cn/post/seo-tu.html
http://www.seocollege.cn/seo/hanjia-seo-shenghuo.html
http://www.tntbbs.com/redirect.php?goto=findpost&pid=49021&ptid=14510
http://www.tntbbs.com/archiver/tid-14510.html
http://www.hunteru.cn/blog/read.php?87
http://www.china-pub.com/STATIC07/0801/zh_px_080116.asp


[此贴子已经被作者于2008-1-30 17:58:27编辑过]


梁老师,我是学信息管理与信息系统的,手头有一本卢亮的《搜索引擎原理、实践与应用》,通读了一遍,感觉写得也挺浅显,容易入门。我也很想买你的书读读。请问你能对比一下这两本书吗。


--  作者:liangbin
--  发布时间:3/13/2008 12:29:00 PM

--  
如果想了解理论,可以看看我写的这本书,其实你可以在附近的新华书店翻翻,应该有你需要的东西。卢亮的书我没看过,不方便评价。
--  作者:天涯咫尺之遥
--  发布时间:3/19/2008 7:45:00 PM

--  
梁老师,
    您好,因为一直比较喜欢google的工作环境,很想以后能够得到一个offer,但是又觉得自己各方面的条件太差,不知如何努力,我的专业是计算机科学与技术,请问我现在最好看一些怎样的书呢
--  作者:twwwgauts
--  发布时间:3/20/2008 10:33:00 AM

--  
买了一本,正在看,感觉还不错!!!
--  作者:liangbin
--  发布时间:4/4/2008 9:00:00 PM

--  
以下是引用天涯咫尺之遥在2008-3-19 19:45:00的发言:
梁老师,
     您好,因为一直比较喜欢google的工作环境,很想以后能够得到一个offer,但是又觉得自己各方面的条件太差,不知如何努力,我的专业是计算机科学与技术,请问我现在最好看一些怎样的书呢

谷歌的工作环境确实不错,能够给你很好的提升空间,但是谷歌肯定不是唯一,还有其他很好的公司。我觉得您的问题主要是道路问题,就这个问题我想说这样几点,供您参考。
(1)打基础很重要,金庸写的射雕英雄传中,梅师姐可以说是一个武痴,练功很刻苦,为什么不能有大成,主要是它没有从九阴真经上册开始练习,忽视了基础。打基础是一件没有捷径的,这一点必须勤学苦练,有信心。
(2)注意交流,同样是金庸的小说,很多高手都是闭门练功,然后出关和各路高手过招,找出差距,这就是交流,总是闭门练功是不行的,要善于切磋交流。
(3)注意自己的优势,没有人在每个方面都能做到最好,任何公司录用你都是要发挥你最大的优势,这一点很重要,要认识自己,突出优势。


--  作者:liangbin
--  发布时间:4/4/2008 9:01:00 PM

--  
以下是引用twwwgauts在2008-3-20 10:33:00的发言:
买了一本,正在看,感觉还不错!!!

不妨把看的过程中的一些问题和体会,和大家分享一下,共同提高。


--  作者:liu_ying_qi
--  发布时间:4/4/2008 11:05:00 PM

--  
路过 ,,看看 挣分走人
--  作者:liangbin
--  发布时间:4/15/2008 8:27:00 AM

--  
本书获得2007年china-pub 金牛奖,畅销书奖。
http://www.china-pub.com/static/zt_mb/zt_huodong_07.asp?filename=jsj_jinniu_080319
--  作者:jiqing_gao
--  发布时间:4/16/2008 11:15:00 AM

--  
好啊,赫赫,得去看看这本书
--  作者:krens
--  发布时间:4/16/2008 8:20:00 PM

--  
看到这么多人推荐,也要看看去。
--  作者:fangyonggo
--  发布时间:4/21/2008 11:09:00 PM

--  
梁老师:
    你好,看了你的书,觉得蛮不错,能否加你的在线联系方式(如QQ或MSN),方便请教与学习。
--  作者:para_zhang
--  发布时间:4/23/2008 9:49:00 AM

--  
虽然我没有学过搜索方面的知识,但是对计算机搜索功能很是钦佩
的确给了我们很多帮助,有兴趣了解以下这方面的知识!
--  作者:inswords
--  发布时间:5/13/2008 9:50:00 PM

--  
Mr. Liang is very good.
--  作者:zeng16107
--  发布时间:5/15/2008 8:22:00 PM

--  
very good!
--  作者:wulin5050
--  发布时间:5/18/2008 12:48:00 AM

--  正在学这个
我也正在学这个!大家交流
--  作者:vanway
--  发布时间:5/19/2008 1:17:00 PM

--  
看到本文才注册了这个帐号
国内讲搜索引擎方面的书还不多,感谢梁先生为搜索引擎技术的普及和发展所作的工作
在这里,想请问梁先生三个问题:
1、据我所知,搜索引擎一个很重要的方面就是其效率,google的page rank算法,作为一个巨大矩阵的运算要实现,也是由于其非常好的算法实现。梁先生能指导一下相关方面的研究资料吗?
2、同样,数据挖掘之与搜索引擎结合,也同样存在着算法效率的问题。或采用相对简单的数据挖掘算法,或设计结合的模式,或优化数据挖掘的实现。此方面相关知识,能否请梁先生不吝赐教
3、也是我在工作中一直遇到的问题,就是人们“关心”的概念,当我们在做聚类和分类的时候,我们可以用xxx算法,得到yy%的结果。可是我们得到的结果是否是人们感兴趣,甚至人和人感兴趣的层次和角度也不同,或者说,需要根据相同问题的不同层次或角度来解决问题。请问,您的工作中遇到相关问题,一般会采用什么样的策略。

感谢梁先生百忙之中的赐教


--  作者:liangbin
--  发布时间:5/19/2008 9:24:00 PM

--  
(1)
PageRank是典型的稀疏阵的计算,其实有很多简化的方法,即如计算siterank,将page级的计算转化到site级的计算。
(2)
搜索引擎就可以看作是一个数据挖掘系统,当然实际的方法和传统数据挖掘有很大区别。
这个问题比较大,一般来说搜索结果分为这样几个部分
   1)parse   网页的解析  
   2)analysis  网页的数据结构化,分析等
            antispame
            web quality
                    page rank
                    other ranks
            ...

   3)index
          distributed index
   4)query
          match rank
          other rank
          summay
       这个问题比较大,几乎搜索的方方面面都在为最后的效果发挥巨大的作用。

第三个问题,搜索引擎目前主要覆盖的是大众的兴趣,就像做一个春节晚会,各种资源都具备了,就是不能让全国人民满意,我想我们任何人去办这台晚会都不能做到让任何人都满意。当然努力的目标是让更多的人满意,个性化的搜索,新闻推送目前都在研究和尝试,最终做到让尽可能多的人满意,照顾尽可能多的人的多方面需求。    


以下是引用vanway在2008-5-19 13:17:00的发言:
看到本文才注册了这个帐号
国内讲搜索引擎方面的书还不多,感谢梁先生为搜索引擎技术的普及和发展所作的工作
在这里,想请问梁先生三个问题:
1、据我所知,搜索引擎一个很重要的方面就是其效率,google的page rank算法,作为一个巨大矩阵的运算要实现,也是由于其非常好的算法实现。梁先生能指导一下相关方面的研究资料吗?
2、同样,数据挖掘之与搜索引擎结合,也同样存在着算法效率的问题。或采用相对简单的数据挖掘算法,或设计结合的模式,或优化数据挖掘的实现。此方面相关知识,能否请梁先生不吝赐教
3、也是我在工作中一直遇到的问题,就是人们“关心”的概念,当我们在做聚类和分类的时候,我们可以用xxx算法,得到yy%的结果。可是我们得到的结果是否是人们感兴趣,甚至人和人感兴趣的层次和角度也不同,或者说,需要根据相同问题的不同层次或角度来解决问题。请问,您的工作中遇到相关问题,一般会采用什么样的策略。

感谢梁先生百忙之中的赐教



--  作者:amoysem
--  发布时间:10/21/2008 7:26:00 AM

--  
梁老师有没有个人BLOG类的呢?
很想关注下,你对搜索引擎的相关看法!

你的《走进搜索引擎》上周刚买!


--  作者:天涯咫尺之遥
--  发布时间:10/21/2008 9:09:00 AM

--  谢谢梁老师
现在我才确定自己的方向
我导师是做数据库的,所以我现在选择了存储的方向,但我对无线通信这个方向也特别有兴趣,所以想以后能做无线通信方面的数据库,梁老师,感觉这个方向怎样呢?
以前总觉得女孩子不适合搞计算机,突然发现了自己的优势,我英语还不错,比较善于跟同学沟通,还有就是我得逻辑思维能力还是可以的,性别的劣势反而能成为我的优势,这是我的想法。
--  作者:liangbin
--  发布时间:10/21/2008 12:45:00 PM

--  
我目前没有blog,我经常活跃在水木清华BBS的搜索引擎版,大家可以去哪里找到我发的一些文章。
http://www.newsmth.net/bbsdoc.php?board=SearchEngineTech

以下是引用amoysem在2008-10-21 7:26:00的发言:
梁老师有没有个人BLOG类的呢?
很想关注下,你对搜索引擎的相关看法!

你的《走进搜索引擎》上周刚买!



--  作者:liangbin
--  发布时间:10/21/2008 12:49:00 PM

--  
从大的方向上看虽然千差万别,但内在的功夫其实是相通的,
数据库的顶级会议SIGMOD,可以看到很多论文也都是搜索领域相关的,或者其他可能一眼并不觉得于数据库有十分紧密关系的论文。

实验室女生做学问的是很多的,而且成果并不差,因此不要太在意自己是女生,而不适合计算机,兴趣是最好的老师。

以下是引用天涯咫尺之遥在2008-10-21 9:09:00的发言:
现在我才确定自己的方向
我导师是做数据库的,所以我现在选择了存储的方向,但我对无线通信这个方向也特别有兴趣,所以想以后能做无线通信方面的数据库,梁老师,感觉这个方向怎样呢?
以前总觉得女孩子不适合搞计算机,突然发现了自己的优势,我英语还不错,比较善于跟同学沟通,还有就是我得逻辑思维能力还是可以的,性别的劣势反而能成为我的优势,这是我的想法。


--  作者:天涯咫尺之遥
--  发布时间:10/21/2008 1:20:00 PM

--  恩  我在看了
最近一直在看sigmod上的文章,觉得对自己提升了不少,知识面拓展的比较快,谢谢 梁老师不辞辛苦的指教
--  作者:amoysem
--  发布时间:10/22/2008 9:01:00 PM

--  
希望能够从梁老师那边学到更多的知识
不知道梁老师对企业在搜索引擎营销,有什么见解呢?
--  作者:liangbin
--  发布时间:10/30/2008 9:03:00 PM

--  
你的问题是否可以具体一些,比如关于搜索引擎关键词广告,竞价排名,或者SEO,还是其他。

以下是引用amoysem在2008-10-22 21:01:00的发言:
希望能够从梁老师那边学到更多的知识
不知道梁老师对企业在搜索引擎营销,有什么见解呢?


--  作者:amoysem
--  发布时间:10/30/2008 9:13:00 PM

--  
应该是SEO吧  
不知道梁老师对SEO的看法是?

就是说:
1.梁老师感觉SEO这个职业如何?
2.企业在网络营销中,SEO应该处于一种什么样子的地位?


--  作者:sesamfox
--  发布时间:10/31/2008 8:44:00 PM

--  
梁老师您好
我现在硕士论文马上就要开题,我的研究方向是web数据挖掘,看了一些文章但是没什么收获,找不到比较好的创新的地方。
您认为这个领域现在哪个地方还有不完善,可以研究创新的地方吗?
--  作者:liangbin
--  发布时间:11/1/2008 8:07:00 PM

--  
以下是引用amoysem在2008-10-30 21:13:00的发言:
应该是SEO吧  
不知道梁老师对SEO的看法是?

就是说:
1.梁老师感觉SEO这个职业如何?
~~~~~~~~~~~~~~~~~~~~SEO逐渐会成为一个很重要的工作,目前搜索引擎已经很大程度上成为了企业的一种宣传渠道,搜索的排名至关重要,SEO正是这种面向搜索引擎友好,合理提高排名,进而推广企业的知名度。

2.企业在网络营销中,SEO应该处于一种什么样子的地位?
~~~~~~~~~~~~~~~~~~~~企业的推广无非是线上和线下,线上(网络营销)的主要是广告和SEO,广告的费用会很高,SEO相当于借助搜索引擎的排名做广告,但相对来说会比较复杂,如果操作不当可能被搜索引擎惩罚,太多网站因此被搜索引擎封站。从长远看SEO正逐渐被重视起来。



--  作者:liangbin
--  发布时间:11/1/2008 8:11:00 PM

--  
从实验室的情况看,目前比较具有商业价值的是这样一些研究课题。
(1)舆情的分析,新闻或者报道的正负面评价,这不仅仅是一个分类的问题,很复杂。
微软,搜狗等都在进行这方面进行研究。
(2)个性化的搜索,目前的搜索是基于对关键词和网页的匹配度(match rank)和网页本身的权威度(page rank)。几乎还不能为用户个性化的提供搜索,谷歌等公司在做这方面的研究和尝试,应该是很新的领域。用户模型的建立是富有挑战性的。
(3)搜索引擎的检索评价,这方面也是很有意义的,可以参见搜狐清华联合实验室的一些研究成果。这里就不详述了。

以下是引用sesamfox在2008-10-31 20:44:00的发言:
梁老师您好
我现在硕士论文马上就要开题,我的研究方向是web数据挖掘,看了一些文章但是没什么收获,找不到比较好的创新的地方。
您认为这个领域现在哪个地方还有不完善,可以研究创新的地方吗?


--  作者:amoysem
--  发布时间:11/1/2008 8:15:00 PM

--  
以下是引用liangbin在2008-11-1 20:07:00的发言:
应该是SEO吧  
  不知道梁老师对SEO的看法是?

  就是说:
  1.SEO逐渐会成为一个很重要的工作,目前搜索引擎已经很大程度上成为了企业的一种宣传渠道,搜索的排名至关重要,SEO正是这种面向搜索引擎友好,合理提高排名,进而推广企业的知名度。~~~~~~恩!

  2.企业的推广无非是线上和线下,线上(网络营销)的主要是广告和SEO,广告的费用会很高,SEO相当于借助搜索引擎的排名做广告,但相对来说会比较复杂,如果操作不当可能被搜索引擎惩罚,太多网站因此被搜索引擎封站。从长远看SEO正逐渐被重视起来。~~~~~~~~梁老师对搜索引擎有比较大的研究,不知道梁老师感觉未来SEOER更应该注重哪方面?关键词布局,内容,链接的构架还是用户的体验等?

近来SEO界比较火的事:通过点击可以使得排名迅速上升?不知道对这个有什么看法呢?



--  作者:hurricanez
--  发布时间:11/13/2008 10:34:00 AM

--  
请教梁老师,现在对于个性化搜索,一些主流厂商大多采取什么理论和策略来实现的呢?
另外,您觉得支持向量机(SVM)这种基于学习的分类方法会不会对个性化搜索有所帮助?
--  作者:miracle2008
--  发布时间:12/10/2008 1:42:00 PM

--  刚借到一这本书,
多学习下啊 关注中。。。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
398.438ms