计算机科学论坛--语义网的产业化[持续更新中]

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

一个Web 2.0公司和语义网
http://blog.baojie.org/2011/04/27/web-2-0-semantic-web/

今天继续咨询语义网在工业界的应用。

今天的咨询对象是一个颇有规模的Web 2.0公司，用户数已经超过千万了。和我谈的某君，自己在语义网领域曾浸润多年，现在所做的，却和语义网没有什么关系了。

我问，这公司需要什么样的AI技术。

某君说，主要还是数据挖掘data mining和机器学习machine learning。自然语言理解natural language processing(NLP)也有用处。公司里有data scientist，也做统计的。数据很多很杂（由用户自己产生），所以需要很多净化cleaning的工作，比如entity resolution（名字匹配）。自动tagging也会有用。

我问，你们好像也用一些微格式microformat，为什么对语义网没有兴趣呢？

某君说，microformat对数据让别人来用，有些用；公司自己，其实并不太在意这一点。内部的数据，没有任何语义网的存储。推理是不太需要的，就算有，也就一两步推理，直接写到代码里就好，不值得用语义网这样复杂的架构。

我问，你自己为什么离开语义网界

某君说，语义网有个核心问题，是数据怎么来。没有数据来源，后面的一系列研究都无用武之地。那么这么多年过去了，问题还是当年的问题。所以现在语义网的博士毕业，工作很不好找。

下面是我自己的一点感想。

现在很多公司都会支持把自己的数据用RDFa或者microformat来markup（参
语义网：走向下一代杀手级应用）。即使不直接做，把数据用某种格式发布出来，XML也好，JSON也好，TXT也好，那总有人很快做出XXX2RDF的工具来——Facebook OG，有人一个下午就把OG2RDF做好了。这个不难。但是很少有公司拿RDF来做存储。所以，所谓的支持语义网或者互联数据，主要是说，RDF可以用来做一种交换格式。问题是，难道这可以说是语义网的胜利吗？以前，XML是说用来做交换格式的。如果抛开推理（因为大多数Web公司对这个还不甚感兴趣），RDF格式本身，有多少新的因素呢？

当然，一个简单的交换格式也有可能催生应用。比如RSS，对Blog的发展就是很有价值的。不要忘了，RSS最早是称为“推”（push technology）的一个技术，我印象里，大概96年-97年，是一个很时髦的名词。但是“推”没有找到自己的发力点，很快就和许多时髦名词一样消失了，直到5、6年之后，Blog兴起了，RSS才作为婢女找到了一份工作。

现在语义网界，各种时髦名词多得很。Linked data本身，也已经5年历史了。到底哪些永远只是个名词，哪些会成为别的技术的婢女，哪些会成为正室，大概还是要多参考参考历史。我也会继续咨询业界的各种不同意见。

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

Web 3.0：基础与基础之基础
http://blog.baojie.org/2011/04/28/web-3-0-foundation/

我很赞成一个说法，就是语义网是一个基础技术。作为基础技术，往往工作在底层，在表面上你却看不到。这一点，Frank van Harmelen和黄智生讲的很好，我无需狗尾续貂。

Web 3.0，有人说是数据网data web，也有人说是语义网semantic web。按上面的观点，web 3.0并不是semantic web --　就像web 2.0并不是AJAX、Interactive Web Form、Flash一样。语义网是Web 3.0的一个支持技术，而不是web3.0本身。

问题是，语义网的基础又是什么？如果你说，根据层次蛋糕，是URI，XML乃至RDF等，那我认为，这是答错了。

互联数据（linked data），是看到了语义网发展的障碍，认为是协议层次太复杂，所以抽出一小块来——就好象XML是SGML的一个简化——来推进语义网的普及。那么现在Linked data是在迅速的增长。但是我觉得，互联数据的数量，在整个语义网的大环境下，还是沧海一粟，不足以构成临界点critical mass。特别是，我们可以认为，互联数据目前的指数增长趋势，可以外推下去，象摩尔定律那样吗？

另外一点，是互联数据，或者说所有语义网的数据，质量如何？有一种观点，把数据转化为RDF，就把数据变成了语义网数据（互联数据云的一大部分，其实是这样）。我越来越觉得这有问题。我把醋倒进酱油瓶子里（形式的改变），醋并不会变成酱油。同样，我把数据从Excel或者RDB变成RDF，并不会降低数据处理的困难程度，那么原来数据的质量问题，如果你不引入新的知识，在新的数据里一样存在。比如美国政府data.gov的数据，里面质量问题成堆，花了RPI（丁力等人）很多时间来清理，也只清理了一小部分。

这让我觉得，数据质量才是问题的核心。垃圾进，垃圾出。

我今天又和工业界的人咨询。一个是Web2.0公司，另一个是Web1.0时代就存在的一个巨头。到底什么样的技术才是他们需要的？

主要是数据挖掘和统计。首先，用户放进来的数据，问题很多，比如敲错字，比如重复，比如格式问题，这些都要纠正。这里面，主要是统计和机器学习在起作用。另一块，就是从数据里我们能得到什么，比如预测，比如推荐，比如抽取，这些一样是数据挖掘的长项。至于元数据，那通常是极少量的（相对这些公司的数据的规模），或者也是数据挖掘的结果。

我得到这样两个印象

第一，Web上的数据，从语义网的角度，质量是很差的。为了提高质量，必须利用其它的AI技术。这些技术用于语义网，现在还在一个摸索阶段——比如本体映射。从这个阶段到工业应用，还有很长的路要走。

第二，知识的形成，最后形成本体，同样要依赖其他的AI技术，比如NLP或者机器学习。从实验室到工业化，同样需要很长的时间。

所以，我认为，语义网的基础是其他AI技术，最主要的是机器学习，自然语言理解等。没有这些技术帮助来提供高质量数据，互联数据本身不会有什么普遍的商业价值。

那么那些垂手可得的关系数据呢？比如schema数据（象Email的send, to, subject，或者Facebook的know, likes）。这些可以很容易的机械的转化成高质量的RDF。问题在于，这样的简单的数据，如同RSS一样，似乎并不需要语义网的处理方法，至少现在大多数Web应用上是这样。

我们看语义技术用的比较好的，比如医药、出版、生物，那都有许许多多的专家（或者作者），专门来生成高质量的数据。这个模式如何扩展到Amazon或者ebay这样规模的数据上，我看，还有很长的路要走。

但是，也有极大的可能，我说的是错的。比如检测生产线上的空肥皂盒，你可以用X光，也可以用电风扇吹。AI就是X光机，我隐隐觉得不靠谱。如果有一种神奇的电风扇，把低质量的triple都吹走，剩下的全是高质量的，那Web 3.0也就成了。

搜索引擎的早期，有一个搜索质量问题。Yahoo开始做人工的索引，质量是高，但是无法扩展（Scale）。后来有几个聪明人，说“可以用链接来提升搜索质量”。这句话值多少钱？看看Google的市值就知道。“可以用XYZ来提升数据质量”，这句话又值多少钱？我要是知道XYZ具体是什么[=电风扇?]，立马把这个博客关掉，飞到硅谷找棵树使劲晃，晃下来两三个风投，然后腰缠十万贯，骑鹤下扬州。

[此贴子已经被作者于2011-4-30 10:45:35编辑过]

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

语义网是一层数据的皮
http://blog.baojie.org/2011/04/28/semantic-web-skin/

今天和一个学术界的同仁（某君）谈语义网的前景问题。他们做的有几个很好的数据集成系统，很实用。有的数据有RDF的输出。

某君说了语义网这么几个问题。

首先，语义网第一个要解决的问题是“数据怎么来”。你没有数据，后来做推理、查询不是空谈吗？有标注工具——可是那些工具这么复杂，一般人谁会去用呢？某君把数据用RDF输出，那不过是一层皮。我同意，就象BestBuy, Amazon把自己的一些数据包一包，你可以用RDF看，这不是什么核心的东西。真正有价值的数据，你是看不到它的RDF的，而且也不需要RDF。

所以，信息获取是关键。某君的系统，主要还是机器学习。数据的净化，数据的挖掘（比如推荐，同名异义分析），都是统计的算法。挖掘得到许多关系，你可以用来做有意义的事情，比如查询，比如推荐。最后得到的数据，是很简单，你用不用SPARQL，其实没有本质的区别。

—————–

我今天正好看了OWL ED 2011的主页，里面有一个keynote是介绍OWL的大规模应用的经验。据说，他们已经给上千人培训过了，各行各业都有，很成功。但是我想，如果培训是针对如何使用OWL，如何建立OWL的知识库，那对OWL应该来说是很悲剧的事，因为绝大数Web用户（>十亿）是不可能用OWL的。所以，OWL（或者RDF）就好象Java或者C++一样，是用来支持面向用户的系统的（这好像是废话）。但是和Java不同，代码写在那里就不用动，OWL要处理的是数据和知识，是要不停变化的，你想事先建一个好的KB，那太难了。

Google说，数据有难以置信的有效性（The Unreasonable Effectiveness of Data），就是说，你与其试图去建一个复杂的模型，还不如收集足够多的数据，跑一些简单的算法，效果往往更好。比如单词纠错和单词联想，你做一个本体来搞，就不如用统计和用户行为分析。分析好了的结果，你当然可以用RDF发布在做一层皮。要不要这层皮，目前，暂时还不重要。以后有了生态系统，或许重要。不过到那天，大概我家的妞也会打酱油了。

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

由于各种主客观原因，Semantic Web成为一个最被广为误解的概念，从而也导致这个概念的不成功（虽然Semantic Web技术还是有用的）。Semantic Web在工业界则被误解的最深，因此建议在工业界认识面前少提或者不提Semantic Web这个概念，提RDF/S，OWL，甚至推理都问题不大。

以下是引用baojie在2011-4-28 0:01:00的发言：
某传统行业对语义网技术的(不)采用
http://blog.baojie.org/2011/04/26/rdf-application/
今天继续咨询工业界的语义网人士，这个语义网到底是怎么用的，或者用了多少。下面的话，有些是某君的，有些是我的。
今天咨询的是一个传统行业，卖设备。设备需要软件，又有数据，这里就需要进行一些知识的管理，语义网就派上一些用场了。我上次说，语义网就是数据，不全面，严谨的说，语义网是处理含有一定知识的数据。不过，哪里有数据不包含知识的呢？不管哪一行，数据多了，数据背后的关系，数据和现实世界的关系就可以挖掘出来了，这都是知识。
某君说，搞语义网，在公司内部阻力不少。在很多传统公司，都有搞数据库的，甚至搞知识管理的部门，都有很多历史数据。你要推语义网，要是首先推一种新数据格式，比如RDF，人家一听眉头就皱起来了——除非你通天，能说动大boss，让行政命令来说话。就算这样，如果人家心里抵制，你这强扭的瓜不甜，上有政策下有对策。还是那句话，在大组织里，官僚机构的本性就是多一事不如少一事。你要是有一个建议，大家都立即有好处而且只要你一个人出力，那当然皆大欢喜。可以你要做一个事，三年五载不见得有用，又要大家顺着你做些新的事情，那最好还是先去看看《是，大臣》再来琢磨琢磨怎么在大组织里生存。语义网，就是这么一个不上不下的技术。
我的理解RDF是两块，一块是推理，一块是用URI命名。分别问之。
首先，推理是有用的，比如进行一致性（consistency）检查或者完整性（integrity constraint）检查。有些是数据库不能支持的。不过这里，还是用rule（规则），而不是OWL的推理。推理用LP的引擎。rule一般也很简单，很多是自动生成的。那为什么说这和语义网有关呢？其实无关，这个公司也没有用RDF存储。只不过现在语义网成了一个概念垃圾桶（类似网格计算或者纳米技术），什么和知识表现有关的都可以塞进来。
关于URI，对人家是画蛇添足，没有用。
我问，这个语义网的研究人员，怎么能让工业界对这个感兴趣？
首先，你要让对方觉得，你能解决对方的问题。注意，是对方的问题而不是你的技术。要理解对方的问题域，也要求语义网这边的人有工程经验，而不仅仅是语义网。反正人家感兴趣的是知识管理，语义网是一层皮，不要被这皮蒙蔽了自己。
不同的行业对语义网的接受程度不同，还要多比较。

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

在工业届，轻量级会更被看好一些。
语义Web应该是一种基础技术，可能和数据挖掘、自然语言处理技术能够无缝集成，会更有市场。如何将语义技术引入到实际的产品或改进用户体验方面，或许可以发挥更多作用。

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

Clay Shirky不愧为Internet思想家，他的许多观点都值得尊重，关于他对语义网的看法，我不想反对。因为其实，他没说错，因为他针对的是人前的那套语义网概念。没错，作为一个被误解很深的概念（这有主观因素，也有客观因素），语义网其实是人前一套、人后一套的两套概念。前者通常出现在各类大型会议（尤其是早年，比如2006年前）的keynote speech上——通过这种途径认识Semantic Web的人就会出现和Clay Shirky一样的认识：认为Semantic Web要求严格的统一、语义网就是人工智能，等等。很遗憾，TBL最早发表于科学美国人上的那篇科幻文章至今仍在Semantic Web初学者和爱好者中间广为流传着。这就不难解释，为什么至今仍有很多人用质疑AI的态度来质疑Semantic Web，并屡试不爽。归根结底，因为他们受到了不确切、却因种种原因仍在广为流传着的错误SW概念的困扰。更为遗憾的是，因为涉及到技术政治，关于SW概念的肃清，短期内恐怕还难以实现。因此，对SW初学者、爱好者或工业界人士来说，同有经验人士探讨，是能确保正确认识SW的途径之一（在认识到Semantic Web的真谛之前，通过阅读了几篇Google而来的文章之后便放弃了对Semantic Web的探索，这是需要避免的）。总结来说，Shirky批判的对，但他批判的只是已被如今Semantic Web研究者抛弃的那套Semantic Web概念。

至于有人提到，为什么一定要用Semantic Web？我用传统技术（比如文中提到的数据库技术）也能解决！对此我的观点是（从工业界角度）：

1。语义网作为一种基础设施技术（即作为基础设施提供给程序员用），它使得工程师们开发语义式应用（比如，最简单的，能够理解同义词）变得容易。工程师们不再需要为了开发语义式应用自己花费大量精力去开发一套框架、库（也许没有采用语义网技术），而只要利用现成的语义网开发包（如Jena之类）即可完成开发任务。
2。因为，语义网技术作为一种基础设施技术，它是为开发人员服务的，它并不一定直接为最终用户可见（如果让最终用户可见，那么可见部分，将增加对用户专业程度的要求）。
3。语义网应用不在于其功能之强大，而在于其实现支持语义的程序的自然性。就像用C++实现OOP比用C实现更自然一样。用传统方法也可以实现语义式应用，但不如采用语义网技术来得自然。

以下是引用baojie在2011-4-27 23:58:00的发言：
温故而知新：重读Clay Shirky对语义网的批判
Clay Shirky在2003-11-07发了一篇文章，The Semantic Web, Syllogism, and Worldview。我还记得这个文章刚出来的时候，一石激起千层浪，吵得不不亦乐乎。两年前在ontolog上有人又贴出来，又叽叽喳喳吵了一阵（不过在ontolog上什么不会被吵呢？）。当然，对很多人，这题目已经不需要吵了，语义网已经被工业界采用了，你还怀疑不过是无知而已。对其他一些人，认为语义网整个就没戏的，“I told you!”，看，过了八年了，Shirky没说错吧。这些话，十有八九是屁股决定脑袋，取决于paycheck的来源。
总结起来，Shirky说了这么几个问题
推理没什么用（Syllogisms are Not Very Useful）
现实世界中我们说话都是模糊的，没有逻辑的精确性（We Describe The World In Generalities；Meta-data is Not A Panacea）
语义网的应用例子是简单问题复杂化，没有语义网也可以解决（The Semantic Web’s Proposed Uses）
本体是屠龙之技，一般人不需要（Ontology is Not A Requirement ）
AI过去50年不能解决的问题，SW就能解决了？（Artificial Intelligence Reborn）
这个世界是乱七八糟的，鸡同鸭讲，试图用一种语言，一种语义一统江湖，那是扯（Worldviews Differ For Good Reasons）
要现实一点，承认现实数据的乱七八糟性，循序渐进，等元数据多了，一点点推进语义网的建设。语义网迟早会来，但不是有人设计它（Worse is Better）
我相信，这里面每一条，尽管过去8年了，尽管技术进步了，现在拿出来都可以再吵上一千回合。这种争吵，我已经没有兴趣看了。BTW，我特别喜欢关于简单问题复杂化的这段话
This example sets the pattern for descriptions of the Semantic Web. First, take some well-known problem. Next, misconstrue it so that the hard part is made to seem trivial and the trivial part hard. Finally, congratulate yourself for solving the trivial part.
当然，这个话可以用在几乎所有的“研究”领域，不仅是语义网。
关于语义网好不好的问题，我觉得要分清几个层次
能不能的问题（科学层次）
容易不容易的问题（工程层次）
经济不经济的问题（商业和社会层次）
大家站在不同的角度来吵这个问题，毫无意义。语义网能不能做这个，做那个？能？如果不能，我们还可以借用A算法来让它能，比如大学B的教授C做的那样…得，又变成学术讨论了。那工程师就会问，你这么做，代价怎么样？活人会按你想的做吗？如果他出错怎们办？如果他懒得连手指头动一动都不干怎么办？最后，VC和商人会问：搞这个要投入多少钱？预期的回报是多少钱？多长时间能回报？用别的技术会不会省钱？政治家和社会活动家也会问：我说我支持这个技术这个会不会促进改进我的形象，拉到更多的选票？这个会不会有助于社会控制？保护或者打探隐私？会不会让别人不知道我是一条狗，blah blah blah
我觉得，语义网作为一个技术规范，没有什么好吵的了，该有的都有了（除了天边的几朵小小乌云）。工业上，要的是应用，要的是效率。达到市场的要求，我看还要10年。什么标志？什么时候维基百科(wikipedia)自己变成语义维基了，这个事就算是真成了。语义维基比语义网要简单多了——语义维基搞不成，为什么会认为语义网搞得成呢？搞语义维基的几个人，向维基百科的头头脑脑进言要把语义加进来，维基百科一直没有被说服。换了是我，也不会被说服，第一，用户素质不行，数据质量保证不了；第二，慢，等你的系统稳定了再来。（BTW，关于语义维基的问题，好题目，以后再讲）。慢慢完善，要时间。
我觉得，W3C的规划（比如层次蛋糕），有点象共产主义——不奇怪，TBL是神一般的存在，大家都觉得他迟早会得图灵奖。W3C规划了一个干净的数据的和谐社会，希望大家都这样去做。可恼的是，俗人偏不这样做。就好象计划经济竞争不过市场经济，W3C这只看得见的手，搞不过市场这个看不见的手——虽然W3C的人都是极聪明的。其实，我心里一直以为，计划经济是优于市场经济——只要我们有足够好质量的数据，足够快的计算机，和足够听话的生产/消费者。这一点，现在还满足不了，所以，我们只好搞乱七八糟的市场经济。语义网的成败，大概也是一样的道理。
P.S. 有人向我推荐看下面的文章
Taming the World Wide Web (Businessweek 2007-04-09)

[此贴子已经被作者于2011-4-30 9:05:43编辑过]

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

以下是引用admin在2011-4-30 8:24:00的发言：
1。语义网作为一种基础设施技术（即作为基础设施提供给程序员用），它使得工程师们开发语义式应用（比如，最简单的，能够理解同义词）变得容易。工程师们不再需要为了开发语义式应用自己花费大量精力去开发一套框架、库（也许没有采用语义网技术），而只要利用现成的语义网开发包（如Jena之类）即可完成开发任务。

我也听W3C的Sandro Hawke说过这个观点。就是数据交换，数据集成，其实每个公司都在做，每个公司都在重新发明轮子。那为什么不用一个标准来做呢？RDF就是这样一个标准。

这个我同意。如果良好的数据已经有了，RDF应该是一个不错的选择。可是这个前提，往往不成立，就是数据杂乱，本身就不好结构化；或者，是数据库的那种结构化。这时，RDF就不那么吸引人了。重复上面的比喻，连路都没有的地方，要的不是轮子，而是腿，各种各样的腿。

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

从语义内联网到语义互联网（零散笔记）
http://blog.baojie.org/2011/04/28/semantic-intranet/

今天又和另外一个传统公司的语义网研究人员谈语义网在这个公司的应用问题。涉及的话题太多，现在没有时间细写。先放个稍做整理的原始笔记在这里

==语义内联网==

企业为什么会有想法做语义网？试试看，反正不能错过。

语义网在企业中应用，首先只要提高企业的效率，要能挣钱

如何挣钱？节约时间就是挣钱，比如用semantic wiki。或者降低成本cost。

内部推广语义网，涉及mindset的改变。在不同的BU（bussiness unit）之间做，要先搞定人。两种搞定法，自上而下，先搞定经理，或者自下而上，先搞定技术人员，让他们和自己的经理谈

Data mining, machine learning对BU有明确的好处。如果他发布了数据，只对别的BU有好处，他没兴趣搞。

让数据在企业内部流起来。这个过程，语义网起什么作用？不清楚，怎么就format change 到paradigm change?

这么做，和ERP和CIMS有什么关系？

Semantic intranet，外面看不到，有什么意义？BU有什么incentive来做语义发布？

Developer gap – rule的方式很好理解，他本来写在代码里的logic，现在做为一个文件，他再调用一下。但是OWL那种，对程序员的思维方式挑战太大。

语义网能不能有利于重用软件中的知识——很多公司内部的软件都是重复的（code expressed knowledge）。感觉不实用。

太难的本体，不需要，没人会

太容易的本体，大家觉得用不着，写代码里就好了。

RDF的URL命名要不要？内联网上URL是不是鸡肋？

==语义互联网==

大家为什么要publish semantic data？

web 1.0 时代 – 不定向的数据发布。开始发布网页的好处什么？知名度，广告等

web 2.0 时代 - 定向的数据发布，对受众有比较明确的认识？好处？social reward?为什么往Facebook上贴照片？知道有人关注。

我为什么发自己的blog？为什么会根据不同的内容在不同的平台（Facebook, Twitter, Weibo, Kaixin）上转发？明确的回报预期。

Social network在提高数据质量上有什么用？Social network现在可以用来分析受众的特征，根据特征来做有针对性的营销。语义有用吗？暂时不知道。

做RDF Wrapper很简单，问题是BU会问，publish data对我有什么用？

政府数据的推手，想叫政府来示范。现在看，企业界没怎么跟进。政府数据自己的问题也很多。

另外，要注意publish page和publish data的区别

Traffic上来了，revenue不见得上来。Bestbuy搞了RDFa，据说traffic上了30%，但是这后面几个季度，revenue和net income糟糕的很。这两个事，是相关而不一定有因果。

人的因素。每个人提供少量而高质量的数据。所以看好RDFa和Drupal。Semantic wiki也很好，案例也比较多。现在正在开SWMCon。

Semantic internet，跨系统数据集成，如同mint.com或者expedia.com。语义网有用吗？

从数据关联中得到什么好处？从科幻的角度，当然可以说很多。看这本书：”Pull: The Power of the Semantic Web to Transform Your Business

具体如何做数据的联想？如何让相关方愿意开放数据？

80%的时间在数据收集和整理上。真正的数据分析只要很少的时间，比如15%。剩下的5%，语义网或许可以用上一点，锦上添花。经理会问，有什么是语义网可以做，别的做不了的？

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

个人觉得工业界已经认可了SW作为KMS（知识管理系统）的标准。凡知识管理系统必然想到SW

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

语义网、蒸汽机、电视电话
http://blog.baojie.org/2011/04/30/semantic-web-steam-engine/

关于语义网的讨论，往往从技术的角度。其实技术的问题都不是问题。钱才是问题。如果一个技术真的能给人挣钱，那还会没有发展吗？反之，一个技术，10年了，发展到本行的人都不敢说是做这行的，那真要问一下，这个技术的挣钱能力在哪里？

Semantic web或者linked data如何帮助企业盈利了？目前有些小的例子，比如原来搞一个文档，要5个星期，现在用了semantic wiki，3个星期就够了。但是对于大的企业，大的项目，涉及的人员成千上万的应用，生产效率有没有提高？生产成本有没有下降？

这些问题，是工程的问题，是市场的问题。

比如你穿越回十八世纪问，实现蒸汽机最大的障碍是什么？不是因为热力学知识不够，而是到底生产要不要一个大规模的扩展的问题。英国的采矿业、纺织业发展，是因为世界市场在十八世纪逐渐开始形成，生产规模的扩张成为一种经济上的必然，蒸汽机采用，可以提高单位时间的生产效率，自然而然就形成它被采用的动力。反之，在中国，自然经济下生产饱和，采用更高效率的机器也无利可图，那谁会去搞？从终端用户的角度，元数据有没有提高他的工作效率？从Web巨头的角度，元数据有没有提高它广告的投放回报？这些事情，不能想当然。就象分类树，我一度给自己的Gmail，Delicious做了几百个tag，后来发现自己根本记不住，而且把自己的屏幕搞的很乱，所以最后还是要搜索。

蒸汽机原理是很简单的，无非是用某种燃料加热水，利用蒸汽推动某种机械的往复运动。但是，不同种类的蒸汽机，效率是大不一样的，依赖机械上的一些“小”发明，比如分离式冷凝器、行星式齿轮、平行运动连杆机构，蒸汽机才最终成功被应用，是很多技术的集成。即使如此，最初把蒸汽机用来拉火车，还是跑不过马。这就好比现在数据库的人问：你语义网和我比，到底好在哪里？工程上形成可以用的技术平台，比如好用的web-scale triple store，推理机，要很多年的技术积累，也会是很多技术的集成。W3C的协议栈，只是其中很小的一块。Jena, Protege这些东西，长远看都是些玩具罢了。

我本科当年学习电视电话，学的是怎么在模拟视频信号上做图像的压缩（比如背景往往是不变的）。这个技术难度很大。你要是问，实现电视电话最大的障碍是什么？15年前我可能会说是这个电话线的带宽或者高频低频信号的分离问题。那现在，视频聊天加上移动互联网，电视电话在技术上早就不成问题了。为什么15年前没有？第一，市场问题，以前电视电话只是极少数人的需要，现在成本下降了，变成了大众需求；第二，相关工程技术的进步，比如那时候CCD摄像头还是稀罕产物，谁家能有闲钱买个摄像机？数字视频流，宽带移动互联网，这些都是15年前想不到的技术。

语义网现在遇到的困难，我猜测，15年后看，都不是啥困难。这个思路（i.e., 元数据共享和互联）是好的，以后必然会被实现，以后必然会有市场。具体的技术路线，却不一定是W3C这一套了。

P.S. 2011-11-29：现在又过去了7个月，我觉得上面讲的两点，市场问题，相关工程技术的进步，都明朗了很多。很高兴的是，这既是理想，又可以吃饭。


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	113.281ms