以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  语义网的产业化[持续更新中]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=90597)


--  作者:baojie
--  发布时间:4/27/2011 11:51:00 PM

--  语义网的产业化[持续更新中]
我最近在思考一些语义网在工业界中的应用问题。因为我在学术界待的太久,对工业界的进步不了解,所以有时很困惑。这个系列,就是我对很多问题的反思,加上我和一些工业界人士咨询的的记录。

原发在我的Blog上,有的有图和链接。最近一段时间,我会不断的来写这个问题。贴在这里,算是抛砖引玉,请方家来赐教。


--  作者:baojie
--  发布时间:4/27/2011 11:53:00 PM

--  
语义网: 检讨与展望(2008)
http://blog.baojie.org/2011/04/06/semantic-web-2008/

【原文发表在w3china.org讨论区,2008-06-07】(admin注:原文链接及讨论:http://bbs.w3china.org/dispbbs.asp?boardid=2&id=63552&star=1

【又三年过去了,我现在的看法比以前悲观一些。前几天我贴了一个关于从语义网到杀手应用的演示,按理说有很多应用了,为什么还悲观呢?我的感觉是,语义网研究了这么多年,有关推理的部分,其实很鸡肋,比如父类子类推理,有没有这十年的研究,没关系。主要被用到的,一个是用URL来命名,一个是RDF三元组数据表示。这些,说实话,用传统数据库都可以做到。前几天和一个搞数据库的聊语义网可能对他们的好处,算我嘴笨,被驳了个哑口无言。我对企业界现在怎么做的不了解,大概有很多应用藏着掖着,要加强学习。以后再细讲。2011-04-06】


Semantic Web Cube
最近几个月,我觉得这个领域经历了一些不小的变化。一个很重要的事情是,这个领域日渐分裂为两个领域:一个就是OWL2这个方向为代表的,强调更强的表达力,强调更多的人工智能,服务于领域本体专家和知识库建设;一个就是以所谓的RDFS 3.0为代表的,强调“足够”和“有效”的表达力,强调大规模(Web Scale)的知识产生和表现,目标是服务于广大的Web终端用户。这个分裂的代表事件是两个多月前Jim Hendler退出OWL工作组。

在这个论坛上有些年头的ID大概都知道,我一直鼓吹轻量级本体的应用。我从来不相信基于描述逻辑(DL)的本体可能在Web上为广大的终端用户所理解,更不相信DL的推理能够在今后一个短的时间段里可能处理Web Scale的问题。大家知道,Web 2.0的概念比语义网的概念推出要晚好几年,可是现在Web 2.0已经成为一个成熟的产业,语义网的应用又在哪里呢?

检讨过去10年的发展(RDF的概念1999年就有了),我觉得这个领域有这样一些弯路或者不足

* 不断试图增加人工智能(知识表现)的能力到语义网的技术中。比如说,研究Rule和本体的集成,比如不断向OWL添加新的构造符(另外还有一大堆待选构造符在OWL工作组的计划中),还有喋喋不休的关于本体模块化的讨论。这些研究当然是非常有意思的工作,我自己也做了一些这方面的事情,但是现在看来,正是由于在AI方面投入的资源太多,反而阻碍了语义网的应用研究。现实中,不是由于OWL的表达力不够而使它得不到应用,而是由于它的表达力实在太强。即使是计算机系的博士生,也要花上相当的时间才能*真正*理解someValuesFrom和allValuesFrom, 如何指望一般的Web用户来正确的使用这样的构造符呢?遗憾的是,在OWLED workshop上(OWL工作组通常通过这个会议来获得“用户”反馈),几乎没有真正的Web用户的声音,而不断各种领域本体专家呼吁这样那样的扩展。如果持续这样下去,也许OWL 2, OWL 3, OWL 4,…会成为优秀的专家系统语言,但我不相信它可以成为语义网的基础语言。

* 忽视面向终端用户的工具开发。语义网上大量的“工具”,比如本体编辑器,推理机,各种API,本体浏览器,等等等等,有没有面向终端用户的呢?至少2007年之前的工具,我想不到哪个被广泛使用的工具是的 — 我这里所说的终端用户,断无RDF或者OWL的知识,更不用说有任何编程或者逻辑背景。于是便有了如下的“鸡生蛋,蛋生鸡”的问题:由于没有合适的工具,就没有普通的用户来产生语义网的数据;由于没有普通用户提供的数据,也就没有需求去设计这样的工具。这个事情最近有了可喜的进步,比如语义wiki,比如Freebase,终于开始提供一点人性化的用户界面了。

* 忽视从Web日常应用入手进行研究。呵呵,这么说可能有点讽刺。我们想一下,一般的Web用户日常做什么工作?it(为政治正确,不分性别)上班第一件事可能是打开电子邮件,然后看看好友的blog,然后乘老板不注意的事情看看bbs和新闻;it要用google calendar管理自己的任务,在flickr上有几百张照片,在同学录上联系老友,去YouTube或者土豆网看视频,去百度搜mp3,诸如此类。请问在ISWC的论文集中,即使是应用Track,有多少文章是关于这样的日常应用呢?其实我们只要给Email, Blog, Calendar这些日常的应用加一丁点semantics(比如tag分类或typed关系),它们就能成为很棒的Killer App. 我很困惑,非常困惑,异常困惑,为什么Google之类的公司没有及时的来做这个事情,或者即使做了也做得半半拉拉,无疾而终(比如HP Lab的Semantic Blog)。

* 试图解决太多问题。最典型的,也是这个论坛上很多同学熟悉的,如本体集成问题和本体映射问题。个人浅见,这些问题绝对是值得研究的本体问题,但不是语义网实现的前提。本体集成和基于本体的数据集成在世界范围内前后至少有一百个有名目的项目在做,在可以预见的将来还是会有很多人来做;本体映射问题,也可以追溯到数据库schema映射的研究,前后少说有20年了吧。在语义网的环境中来研究这些问题,继承了数据库中相关问题的成果,也继承了它们的艰难 — 可是,语义网和数据库可以类比吗?我有一个大胆的想法:在语义网上,每个人所用的本体,无非是一些标准的本体(如foaf)和小而简单的(如分类树)个人定义的本体;本体集成和映射,主要的发生在熟人之间(因为有这个必要),这种工作主要的是手工完成的(比如建立Gmail tag的对应);然后通过社交网络(Social Network),每个人的本体和外部世界建立起关系。所以现有的大量这方面的研究,恐怕以后在语义网上的应用只是有限的。类似的,如本体挖掘问题,如本体进化问题等等,这些都是重要的问题 — 但是如果连本体都没有(戴上钢盔,躲砖头先),这些研究不就成为屠龙之技了吗?整个领域的人力物力是有限的,这里多一点,那里就少一点。是不是多一点研究力量在如何吸引终端用户,先让终端用户产生出本体来,让用户觉得有本体很爽,会不会更好些?

* 忽视吸取“传统”Web处理海量数据的一些方法。具体的说,就是对大规模并行处理,如Google PageRank, Server Farm, MapReduce这些借鉴不够。

* 和数据库领域没有搞好关系。总的来说,数据库领域对语义网领域不太感冒。毕竟,语义网上一个PTime算法就让人high,而数据库的人不会觉得LogSpace以上的东西有实用意义。最近也有很多搞调和的工作。其实,语义网的RDF这个层面的工作,完全可以可以看作数据库的一种低代价的扩展,建立于数据库之上。Oracle的RDF数据库实现,就很好的说明了这一点。如果OWL工作组和RDF相关的工作组能更多听取数据库界的意见,更多考虑可实现性和海量数据处理能力,对领域发展有益无害 — 至少可以少被数据库的人据NSF项目申请

* 移动语义网投入不足。不远的将来的最日常使用的Web终端会是手机和PDA,而非PC。语义网应用必须考虑到客户端的有限资源问题(屏幕,内容 etc)。

罗嗦了这么一堆,那么希望在哪里呢?我觉得每个问题的反面就是答案
* 应用轻量级本体,如分类树和RDF
* 开发面向终端用户的应用,如搜索引擎和电子邮件终端
* 利用Web 2.0技术降低用户门槛,促进用户参与(如语义wiki)
* 集中研究力量于迫切问题(如普及问题),循序渐进
* 应用并行计算
* 好好利用传统数据库
* 基于手机的程序开发

可喜的是,最近这些问题逐渐被越来越多的人认识到并重视。一个代表性的进步就是过去一年中语义wiki等Social Semantic Web技术有了长足的进步。DARPA (国防高等研究计划署,当年启动美国这边的语义网研究的就是它) 很可能对语义wiki技术做一个大力度的支持。许多激动人心的应用正在或将在这样的平台上以始料未及(wrt. 2001年)的方式被实现出来。我相信在今明两年,一些很棒的应用将浮现出来。

今后的语义网界,恐怕还会继续分裂为OWL 2“重量级”道路,和RDFS 3.0“轻量级”道路。我相信这两个方面在适应他们各自的用户群上,都会是合适的,只是前者的用户群只会是后者的一个极小的比例。殷鉴不远,在夏后之世,我们已经看到了专家系统,演绎数据库,面向对象的数据库这样一些最终成为小众自娱自乐的例子。显然,我们不希望语义网也成为这个名单的新一员。如何能最大可能的去适应最广大的用户,而不是相反,一个技术才会有持久的生命力。

不管白猫黑猫,抓住用户的就是好猫!


[此贴子已经被admin于2011-4-30 7:10:31编辑过]

--  作者:baojie
--  发布时间:4/27/2011 11:55:00 PM

--  
即罔且殆兮语义网
http://blog.baojie.org/2011/04/12/puzzle-sw/

【原文在XML论坛,2011-04-12】

我再来说几句我自己的疑问。对工业界的进步,我知道的很少,所以真正的内行看了, 不要笑话。

我觉得长久以来,语义网最大的问题,就是没有盈利模式。专家系统,词汇表,以前这些在一些领域,比如医学、制药、咨询、出版,这些都有极重要的应用。语义网向这些领域的渗透,驾轻就熟(本来就是同一帮人在搞)。问题是,原来用其他格式,现在用RDF/OWL,究竟是本质的改变还是皮肤的改变?这些小的领域,可以有闲钱支持数据的产生和维持,那对大众产品,如何实现这一点?对相应的领域,$/triple投入是多少?$/triple额外收入是多少?

换一个问题问:如果这个事,我不用RDF/OWL,用别的技术,能不能达到同样的效果?基于这个思路,Facebbook推出他的open graph, Google推出他的DSPL: Dataset Publishing Language。既然从这些格式向RDF转化易如反掌,他们为什么不用RDF?我在象牙塔里,没有想明白。和数据库领域的人讨论这个问题,尤其费劲;在他们看来,语义网提供了一些新鲜的东西,也提供了一些有用的东西,但是新鲜的东西都没有用,而有用的东西都不新鲜。

从生态系统的角度,数据要互联。从公司利益的角度,数据要单向流动。所以Facebook不开放,他家的数据是要卖钱的。别人开放,他欢迎(比如鼓励别人用Like按钮)。让他自己开放,研究研究、研究研究。Google也是一样。开放的不一定有竞争力,比如开源软件;封闭的可能卖的很火,比如IPhone。怎么折衷,要业界的人来讲,我不懂。

反之,许多语义网的产品,其实卖点并不仅是语义网。自然语言处理,大规模计算,可视化,内部或者外部通信用到RDF。这很正常,现在还有什么产品说自己是数据库或者XML的产品吗?语义网本身,不能保证盈利,必须和其他技术一起用。如何集成,也要内行来讲。

我最近看到很多公司在招语义网的程序员,这是大好事,说明语义网开始在工业界成气候了,比如媒体、金融、广告,移动通讯、搜索引擎优化。所以说,这个盈利模式现在开始建立了。具体怎么样盈利,我不清楚。

语义网界,有很多Hype,也有很多Hope。分清楚,不容易,要即学且思,才能不罔不殆。我现在是又罔又殆。


--  作者:baojie
--  发布时间:4/27/2011 11:57:00 PM

--  
技术与创业
http://blog.baojie.org/2011/04/21/startup/

最近和几个工业界的朋友谈了谈。下面是一些杂乱的笔记。

语义网的作用

语义网本身是一种支持性技术,是一种平台技术
对于工业界,平台技术并不直接创造价值,终端产品才创造价值
到底语义网怎么促进了效率,不清楚——对外面,对领导,可以忽悠;但是到底怎么样,没谱 [可能是认识还没有深入]
语义网要打通数据,而公司之间,甚至公司部门之间,本质上就是数据诸侯;你想通一通,那就涉及人力和权力。没有人愿意找麻烦
在你推销一个技术之前,先想想“so what”。自己没想清楚,不要自找没趣。
不要企图做一个复杂的本体。一般公司没有人有兴趣做这种事。
不要企图从本体中获得干净的推理——数据一定是乱的。你只能做很简单的,规则类的推理。OWL基本上是没什么用的
RDF的语法本身也是可有可无的。关键是语义网的思路,而不是形式。
其实公司一直都在做语义网,只是不称为语义网——所以单纯的语义网是没有用的。
许多公司用语义网,大概是试试看,做好了随时撤的准备。


--  作者:baojie
--  发布时间:4/27/2011 11:57:00 PM

--  
语义网就是数据
http://blog.baojie.org/2011/04/21/sw-is-data/

今天又和两个工业界的朋友聊天

首先,要搞语义网,先不要去想RDF/OWL/SPARQL。这些是手段,而且不是唯一的手段。关键是数据。不管哪一行,只要有数据,深刻理解数据,才能做好应用。语义网技术,如果用得好,可以起到润滑剂的作用。所以,不要去想“我去做个语义网的应用”。这种说法,就像“我要做个计算机的应用”一样可笑。不要光想着Web   X.0,只要有数据的地方(比如各种传统行业),就有应用前景。所以前提还是吃透问题域。Facebook比QQ强在哪里?QQ坐在数据的宝山上不知道用(现在大概知道了点),Facebook让自己成为数据的黑洞。

其次,“传统”行业(现在Facebook也是传统行业了)是有惰性的。不要说用语义网这样的“高”科技,就是原来用手写记录,转移到电子邮件记录这样小的变化,都会在员工中引起强烈的抵制。原有的数据有原有的格式,长久以来行之有效,人家凭什么要改?不要从技术的角度去想改人家的工作方式,什么加了RDFa就有多么好,或者加了推理会有多么有效的查询,这种说法都很难打动潜在用户。有人会因为你用了SQL-99就觉得你的软件比用SQL-86的好吗?卖的是产品,不是技术。

去推广语义网技术,最好是先忘掉语义网,脑子里先只放数据和业务流程,然后,再把语义网套回来,能用则用,不能用则弃。


--  作者:baojie
--  发布时间:4/27/2011 11:58:00 PM

--  
温故而知新:重读Clay Shirky对语义网的批判
http://blog.baojie.org/2011/04/22/clay-shirky/

Clay Shirky在2003-11-07发了一篇文章,The Semantic Web, Syllogism, and Worldview。我还记得这个文章刚出来的时候,一石激起千层浪,吵得不不亦乐乎。两年前在ontolog上有人又贴出来,又叽叽喳喳吵了一阵(不过在ontolog上什么不会被吵呢?)。当然,对很多人,这题目已经不需要吵了,语义网已经被工业界采用了,你还怀疑不过是无知而已。对其他一些人,认为语义网整个就没戏的,“I told you!”,看,过了八年了,Shirky没说错吧。这些话,十有八九是屁股决定脑袋,取决于paycheck的来源。

总结起来,Shirky说了这么几个问题

推理没什么用(Syllogisms are Not Very Useful)
现实世界中我们说话都是模糊的,没有逻辑的精确性(We Describe The World In Generalities;Meta-data is Not A Panacea)
语义网的应用例子是简单问题复杂化,没有语义网也可以解决(The Semantic Web’s Proposed Uses)
本体是屠龙之技,一般人不需要(Ontology is Not A Requirement )
AI过去50年不能解决的问题,SW就能解决了?(Artificial Intelligence Reborn)
这个世界是乱七八糟的,鸡同鸭讲,试图用一种语言,一种语义一统江湖,那是扯(Worldviews Differ For Good Reasons)
要现实一点,承认现实数据的乱七八糟性,循序渐进,等元数据多了,一点点推进语义网的建设。语义网迟早会来,但不是有人设计它(Worse is Better)
我相信,这里面每一条,尽管过去8年了,尽管技术进步了,现在拿出来都可以再吵上一千回合。这种争吵,我已经没有兴趣看了。BTW,我特别喜欢关于简单问题复杂化的这段话

This example sets the pattern for descriptions of the Semantic Web. First, take some well-known problem. Next, misconstrue it so that the hard part is made to seem trivial and the trivial part hard. Finally, congratulate yourself for solving the trivial part.

当然,这个话可以用在几乎所有的“研究”领域,不仅是语义网。

关于语义网好不好的问题,我觉得要分清几个层次

能不能的问题(科学层次)
容易不容易的问题(工程层次)
经济不经济的问题(商业和社会层次)
大家站在不同的角度来吵这个问题,毫无意义。语义网能不能做这个,做那个?能?如果不能,我们还可以借用A算法来让它能,比如大学B的教授C做的那样…得,又变成学术讨论了。那工程师就会问,你这么做,代价怎么样?活人会按你想的做吗?如果他出错怎们办?如果他懒得连手指头动一动都不干怎么办?最后,VC和商人会问:搞这个要投入多少钱?预期的回报是多少钱?多长时间能回报?用别的技术会不会省钱?政治家和社会活动家也会问:我说我支持这个技术这个会不会促进改进我的形象,拉到更多的选票?这个会不会有助于社会控制?保护或者打探隐私?会不会让别人不知道我是一条狗,blah blah blah

我觉得,语义网作为一个技术规范,没有什么好吵的了,该有的都有了(除了天边的几朵小小乌云)。工业上,要的是应用,要的是效率。达到市场的要求,我看还要10年。什么标志?什么时候维基百科(wikipedia)自己变成语义维基了,这个事就算是真成了。语义维基比语义网要简单多了——语义维基搞不成,为什么会认为语义网搞得成呢?搞语义维基的几个人,向维基百科的头头脑脑进言要把语义加进来,维基百科一直没有被说服。换了是我,也不会被说服,第一,用户素质不行,数据质量保证不了;第二,慢,等你的系统稳定了再来。(BTW,关于语义维基的问题,好题目,以后再讲)。慢慢完善,要时间。

我觉得,W3C的规划(比如层次蛋糕),有点象共产主义——不奇怪,TBL是神一般的存在,大家都觉得他迟早会得图灵奖。W3C规划了一个干净的数据的和谐社会,希望大家都这样去做。可恼的是,俗人偏不这样做。就好象计划经济竞争不过市场经济,W3C这只看得见的手,搞不过市场这个看不见的手——虽然W3C的人都是极聪明的。其实,我心里一直以为,计划经济是优于市场经济——只要我们有足够好质量的数据,足够快的计算机,和足够听话的生产/消费者。这一点,现在还满足不了,所以,我们只好搞乱七八糟的市场经济。语义网的成败,大概也是一样的道理。

P.S. 有人向我推荐看下面的文章

Taming the World Wide Web (Businessweek 2007-04-09)


[此贴子已经被作者于2011-4-30 11:15:59编辑过]

--  作者:baojie
--  发布时间:4/27/2011 11:58:00 PM

--  
语义网和世界语
http://blog.baojie.org/2011/04/23/esperanto/

John Sowa今天评价说,语义网和世界语有很多类似的地方:都想作为一种interlingua(交换语言),但是都没有得到广泛的使用(至少到目前为止)。为什么?并不是因为语义不够,而是因为缺少“supporting infrastructure”(基础设施的支持)。

我可以想象有人会出来说语义网的infrastructure已经很多而且在增长云云。不过,我觉得最重要的infrastructure,是两个

一个是采用这个语言的制度激励。其实学习世界语相对是比较容易的,至少比英语容易,但是在学世界语的初期,有什么用呢?文学吗?商务吗?除了好奇心和学习语言的乐趣本身,还有什么呢?因为这个回报周期很长,愿意做这个投入的人就很少。我们人类往往是很急功近利的,于是就发明了很多办法,把长期利益变成短期利益。比如教育,要20年才能出成绩,但是通过奖励啊,评比啊,这样每过几个月就让人有个去努力的目标和可能的激励。或者比如一些金融创新,把长期债券的现金流变成立即可以变现的大笔短期现金(这创新本身是中性的,最后搞出次贷危机,那有其他原因)。语义网里怎么平衡长期利益和短期利益,只要有一个实例出来,我相信那就会爆炸性的示范效果。

二是相关利益方。英语本身的扩展,是随着英语国家的经济增长和霸权增长而扩展的。不光是政治和军事的霸权,而且是文化的霸权——比如电影。试问,英语国家政府会有兴趣去强力推广世界语吗?他们有什么理由要去这么做呢?同理,我们问一下,互联网巨头有兴趣去推广语义网吗?到目前为止,我们看到了一点点兴趣,但是我觉得与其说是兴趣,不如说是好奇心,或者是帕斯卡对宗教的那种态度:姑且试一试,错了也无妨。

我觉得不光是推广语义网,推广任何技术,都要先想想策略对应对这些missing infrastructure——不光是技术的,而且是制度和博弈的。世界上聪明人这么多,一定有人会想到——或者已经有了,我不知道。不管是谁,谁先想到并且实践,那就是数钱数到手软都不足形容的。


--  作者:baojie
--  发布时间:4/28/2011

--  
糊涂与形而上学
http://blog.baojie.org/2011/04/24/hutu/

我觉得语义网虽然已经10年有余了,但是它的发展和预期的差距还是太远了。那么在公开场合,你会听到很多正面的报道,特别是宣传。我在这个方向工作了将近8年,到底这8年的努力对以后的事业发展有什么作用,这个方向在短期的未来(对个人有意义的一个阶段),比如3-5年,会大致有什么样的发展,我觉得应该慎重的考虑一下。当然,这并不是我在否定语义网技术——这个技术的内在合理性,我从来没有怀疑过。我只是觉得,许多问题,要跳出单纯的技术考虑(更不用说学术考虑),去多想想人的因素。Social Network(社交网络)的成功,并不是应用了什么高科技;wiki啊,blog啊,这些东西,开始都是利用很成熟的技术构造起来的,技术的风险很小。那么他们引入一些新的人因素到网络上,把网络从发布平台变成交互平台,一些新的需求,继而,新的技术就发展起来了。这个过程,开始没有什么人或者机构(比如W3C)来规划和引导,而是很自然的形成了一个产业链。社交网络的提出,比语义网要晚,发展却比语义网快,这里有很多值得思考的问题。有很多文章说了,但是看人家的文章,和自己真正领悟,还有很大的距离。特别是,你要和领域里的人谈,私下里人家会说一些公开场合不适合说的东西。要理解大趋势,要多读(但是要注意这个领域忽悠特别多,要有判断力),特别是要多谈。


--  作者:baojie
--  发布时间:4/28/2011 12:01:00 AM

--  
某传统行业对语义网技术的(不)采用
http://blog.baojie.org/2011/04/26/rdf-application/

今天继续咨询工业界的语义网人士,这个语义网到底是怎么用的,或者用了多少。下面的话,有些是某君的,有些是我的。

今天咨询的是一个传统行业,卖设备。设备需要软件,又有数据,这里就需要进行一些知识的管理,语义网就派上一些用场了。我上次说,语义网就是数据,不全面,严谨的说,语义网是处理含有一定知识的数据。不过,哪里有数据不包含知识的呢?不管哪一行,数据多了,数据背后的关系,数据和现实世界的关系就可以挖掘出来了,这都是知识。

某君说,搞语义网,在公司内部阻力不少。在很多传统公司,都有搞数据库的,甚至搞知识管理的部门,都有很多历史数据。你要推语义网,要是首先推一种新数据格式,比如RDF,人家一听眉头就皱起来了——除非你通天,能说动大boss,让行政命令来说话。就算这样,如果人家心里抵制,你这强扭的瓜不甜,上有政策下有对策。还是那句话,在大组织里,官僚机构的本性就是多一事不如少一事。你要是有一个建议,大家都立即有好处而且只要你一个人出力,那当然皆大欢喜。可以你要做一个事,三年五载不见得有用,又要大家顺着你做些新的事情,那最好还是先去看看《是,大臣》再来琢磨琢磨怎么在大组织里生存。语义网,就是这么一个不上不下的技术。

我的理解RDF是两块,一块是推理,一块是用URI命名。分别问之。

首先,推理是有用的,比如进行一致性(consistency)检查或者完整性(integrity constraint)检查。有些是数据库不能支持的。不过这里,还是用rule(规则),而不是OWL的推理。推理用LP的引擎。rule一般也很简单,很多是自动生成的。那为什么说这和语义网有关呢?其实无关,这个公司也没有用RDF存储。只不过现在语义网成了一个概念垃圾桶(类似网格计算或者纳米技术),什么和知识表现有关的都可以塞进来。

关于URI,对人家是画蛇添足,没有用。

我问,这个语义网的研究人员,怎么能让工业界对这个感兴趣?

首先,你要让对方觉得,你能解决对方的问题。注意,是对方的问题而不是你的技术。要理解对方的问题域,也要求语义网这边的人有工程经验,而不仅仅是语义网。反正人家感兴趣的是知识管理,语义网是一层皮,不要被这皮蒙蔽了自己。

不同的行业对语义网的接受程度不同,还要多比较。


--  作者:baojie
--  发布时间:4/28/2011 12:02:00 AM

--  
为什么语义网像那事(18+)
http://blog.baojie.org/2011/04/26/sex/

Why is XYZ like teenage sex?
这是老段子了,可以用在任何技术的初期阶段。版本很多,XYZ可以是语义网,敏捷编程,云计算,等等。对语义网,我倒觉得很贴切。

我看到最早的版本是这样的

It’s on everyone’s mind all the time. 每个人都老想着这事
Everyone is talking about it all the time.  每个人都谈这破事
Everyone thinks everyone else is doing it. 每个人都觉得别人做了。
Almost no one is really doing it. 很少有人真干了
The few who are doing it are: 那些少数做过的

doing it poorly 做得很菜
hopeful it will be better next time 希望下次能做得更好
not practicing it safely 不晓得安全得去做
另一个版本也部分适用(我挑了几条)
It’s Not the Size of the Tool, It’s How You Use It 不要怪工具的尺码,关键是你自己会不会用
Foreplay is Key 前戏很重要
Everyone’s an “Expert” (Or “Guru” or “Ninja”) 大师满地走,专家不如狗
You Need to Do More Than Just Show Up; You’ve Got to Engage 光晃悠不行,要死缠烂打,深入


--  作者:baojie
--  发布时间:4/28/2011 12:02:00 AM

--  
一个Web 2.0公司和语义网
http://blog.baojie.org/2011/04/27/web-2-0-semantic-web/

今天继续咨询语义网在工业界的应用。

今天的咨询对象是一个颇有规模的Web 2.0公司,用户数已经超过千万了。和我谈的某君,自己在语义网领域曾浸润多年,现在所做的,却和语义网没有什么关系了。

我问,这公司需要什么样的AI技术。

某君说,主要还是数据挖掘data mining和机器学习machine learning。自然语言理解natural language processing(NLP)也有用处。公司里有data scientist,也做统计的。数据很多很杂(由用户自己产生),所以需要很多净化cleaning的工作,比如entity resolution(名字匹配)。自动tagging也会有用。

我问,你们好像也用一些微格式microformat,为什么对语义网没有兴趣呢?

某君说,microformat对数据让别人来用,有些用;公司自己,其实并不太在意这一点。内部的数据,没有任何语义网的存储。推理是不太需要的,就算有,也就一两步推理,直接写到代码里就好,不值得用语义网这样复杂的架构。

我问,你自己为什么离开语义网界

某君说,语义网有个核心问题,是数据怎么来。没有数据来源,后面的一系列研究都无用武之地。那么这么多年过去了,问题还是当年的问题。所以现在语义网的博士毕业,工作很不好找。

下面是我自己的一点感想。

现在很多公司都会支持把自己的数据用RDFa或者microformat来markup(参
语义网:走向下一代杀手级应用)。即使不直接做,把数据用某种格式发布出来,XML也好,JSON也好,TXT也好,那总有人很快做出XXX2RDF的工具来——Facebook OG,有人一个下午就把OG2RDF做好了。这个不难。但是很少有公司拿RDF来做存储。所以,所谓的支持语义网或者互联数据,主要是说,RDF可以用来做一种交换格式。问题是,难道这可以说是语义网的胜利吗?以前,XML是说用来做交换格式的。如果抛开推理(因为大多数Web公司对这个还不甚感兴趣),RDF格式本身,有多少新的因素呢?

当然,一个简单的交换格式也有可能催生应用。比如RSS,对Blog的发展就是很有价值的。不要忘了,RSS最早是称为“推”(push technology)的一个技术,我印象里,大概96年-97年,是一个很时髦的名词。但是“推”没有找到自己的发力点,很快就和许多时髦名词一样消失了,直到5、6年之后,Blog兴起了,RSS才作为婢女找到了一份工作。

现在语义网界,各种时髦名词多得很。Linked data本身,也已经5年历史了。到底哪些永远只是个名词,哪些会成为别的技术的婢女,哪些会成为正室,大概还是要多参考参考历史。我也会继续咨询业界的各种不同意见。


--  作者:baojie
--  发布时间:4/28/2011 2:49:00 PM

--  
Web 3.0:基础与基础之基础
http://blog.baojie.org/2011/04/28/web-3-0-foundation/

我很赞成一个说法,就是语义网是一个基础技术。作为基础技术,往往工作在底层,在表面上你却看不到。这一点,Frank van Harmelen和黄智生讲的很好,我无需狗尾续貂。

Web 3.0,有人说是数据网data web,也有人说是语义网semantic web。按上面的观点,web 3.0并不是semantic web -- 就像web 2.0并不是AJAX、Interactive Web Form、Flash一样。语义网是Web 3.0的一个支持技术,而不是web3.0本身。

问题是,语义网的基础又是什么?如果你说,根据层次蛋糕,是URI,XML乃至RDF等,那我认为,这是答错了。

互联数据(linked data),是看到了语义网发展的障碍,认为是协议层次太复杂,所以抽出一小块来——就好象XML是SGML的一个简化——来推进语义网的普及。那么现在Linked data是在迅速的增长。但是我觉得,互联数据的数量,在整个语义网的大环境下,还是沧海一粟,不足以构成临界点critical mass。特别是,我们可以认为,互联数据目前的指数增长趋势,可以外推下去,象摩尔定律那样吗?

另外一点,是互联数据,或者说所有语义网的数据,质量如何?有一种观点,把数据转化为RDF,就把数据变成了语义网数据(互联数据云的一大部分,其实是这样)。我越来越觉得这有问题。我把醋倒进酱油瓶子里(形式的改变),醋并不会变成酱油。同样,我把数据从Excel或者RDB变成RDF,并不会降低数据处理的困难程度,那么原来数据的质量问题,如果你不引入新的知识,在新的数据里一样存在。比如美国政府data.gov的数据,里面质量问题成堆,花了RPI(丁力等人)很多时间来清理,也只清理了一小部分。

这让我觉得,数据质量才是问题的核心。垃圾进,垃圾出。

我今天又和工业界的人咨询。一个是Web2.0公司,另一个是Web1.0时代就存在的一个巨头。到底什么样的技术才是他们需要的?

主要是数据挖掘和统计。首先,用户放进来的数据,问题很多,比如敲错字,比如重复,比如格式问题,这些都要纠正。这里面,主要是统计和机器学习在起作用。另一块,就是从数据里我们能得到什么,比如预测,比如推荐,比如抽取,这些一样是数据挖掘的长项。至于元数据,那通常是极少量的(相对这些公司的数据的规模),或者也是数据挖掘的结果。

我得到这样两个印象

第一,Web上的数据,从语义网的角度,质量是很差的。为了提高质量,必须利用其它的AI技术。这些技术用于语义网,现在还在一个摸索阶段——比如本体映射。从这个阶段到工业应用,还有很长的路要走。

第二,知识的形成,最后形成本体,同样要依赖其他的AI技术,比如NLP或者机器学习。从实验室到工业化,同样需要很长的时间。

所以,我认为,语义网的基础是其他AI技术,最主要的是机器学习,自然语言理解等。没有这些技术帮助来提供高质量数据,互联数据本身不会有什么普遍的商业价值。

那么那些垂手可得的关系数据呢?比如schema数据(象Email的send, to, subject,或者Facebook的know, likes)。这些可以很容易的机械的转化成高质量的RDF。问题在于,这样的简单的数据,如同RSS一样,似乎并不需要语义网的处理方法,至少现在大多数Web应用上是这样。

我们看语义技术用的比较好的,比如医药、出版、生物,那都有许许多多的专家(或者作者),专门来生成高质量的数据。这个模式如何扩展到Amazon或者ebay这样规模的数据上,我看,还有很长的路要走。

但是,也有极大的可能,我说的是错的。比如检测生产线上的空肥皂盒,你可以用X光,也可以用电风扇吹。AI就是X光机,我隐隐觉得不靠谱。如果有一种神奇的电风扇,把低质量的triple都吹走,剩下的全是高质量的,那Web 3.0也就成了。

搜索引擎的早期,有一个搜索质量问题。Yahoo开始做人工的索引,质量是高,但是无法扩展(Scale)。后来有几个聪明人,说“可以用链接来提升搜索质量”。这句话值多少钱?看看Google的市值就知道。“可以用XYZ来提升数据质量”,这句话又值多少钱?我要是知道XYZ具体是什么[=电风扇?],立马把这个博客关掉,飞到硅谷找棵树使劲晃,晃下来两三个风投,然后腰缠十万贯,骑鹤下扬州。


[此贴子已经被作者于2011-4-30 10:45:35编辑过]

--  作者:baojie
--  发布时间:4/29/2011 5:18:00 AM

--  
语义网是一层数据的皮
http://blog.baojie.org/2011/04/28/semantic-web-skin/

今天和一个学术界的同仁(某君)谈语义网的前景问题。他们做的有几个很好的数据集成系统,很实用。有的数据有RDF的输出。

某君说了语义网这么几个问题。

首先,语义网第一个要解决的问题是“数据怎么来”。你没有数据,后来做推理、查询不是空谈吗?有标注工具——可是那些工具这么复杂,一般人谁会去用呢?某君把数据用RDF输出,那不过是一层皮。我同意,就象BestBuy, Amazon把自己的一些数据包一包,你可以用RDF看,这不是什么核心的东西。真正有价值的数据,你是看不到它的RDF的,而且也不需要RDF。

所以,信息获取是关键。某君的系统,主要还是机器学习。数据的净化,数据的挖掘(比如推荐,同名异义分析),都是统计的算法。挖掘得到许多关系,你可以用来做有意义的事情,比如查询,比如推荐。最后得到的数据,是很简单,你用不用SPARQL,其实没有本质的区别。

—————–

我今天正好看了OWL ED 2011的主页,里面有一个keynote是介绍OWL的大规模应用的经验。据说,他们已经给上千人培训过了,各行各业都有,很成功。但是我想,如果培训是针对如何使用OWL,如何建立OWL的知识库,那对OWL应该来说是很悲剧的事,因为绝大数Web用户(>十亿)是不可能用OWL的。所以,OWL(或者RDF)就好象Java或者C++一样,是用来支持面向用户的系统的(这好像是废话)。但是和Java不同,代码写在那里就不用动,OWL要处理的是数据和知识,是要不停变化的,你想事先建一个好的KB,那太难了。

Google说,数据有难以置信的有效性(The Unreasonable Effectiveness of Data),就是说,你与其试图去建一个复杂的模型,还不如收集足够多的数据,跑一些简单的算法,效果往往更好。比如单词纠错和单词联想,你做一个本体来搞,就不如用统计和用户行为分析。分析好了的结果,你当然可以用RDF发布在做一层皮。要不要这层皮,目前,暂时还不重要。以后有了生态系统,或许重要。不过到那天,大概我家的妞也会打酱油了。


--  作者:admin
--  发布时间:4/30/2011 6:59:00 AM

--  
由于各种主客观原因,Semantic Web成为一个最被广为误解的概念,从而也导致这个概念的不成功(虽然Semantic Web技术还是有用的)。Semantic Web在工业界则被误解的最深,因此建议在工业界认识面前少提或者不提Semantic Web这个概念,提RDF/S,OWL,甚至推理都问题不大。

以下是引用baojie在2011-4-28 0:01:00的发言:
某传统行业对语义网技术的(不)采用
http://blog.baojie.org/2011/04/26/rdf-application/

今天继续咨询工业界的语义网人士,这个语义网到底是怎么用的,或者用了多少。下面的话,有些是某君的,有些是我的。

今天咨询的是一个传统行业,卖设备。设备需要软件,又有数据,这里就需要进行一些知识的管理,语义网就派上一些用场了。我上次说,语义网就是数据,不全面,严谨的说,语义网是处理含有一定知识的数据。不过,哪里有数据不包含知识的呢?不管哪一行,数据多了,数据背后的关系,数据和现实世界的关系就可以挖掘出来了,这都是知识。

某君说,搞语义网,在公司内部阻力不少。在很多传统公司,都有搞数据库的,甚至搞知识管理的部门,都有很多历史数据。你要推语义网,要是首先推一种新数据格式,比如RDF,人家一听眉头就皱起来了——除非你通天,能说动大boss,让行政命令来说话。就算这样,如果人家心里抵制,你这强扭的瓜不甜,上有政策下有对策。还是那句话,在大组织里,官僚机构的本性就是多一事不如少一事。你要是有一个建议,大家都立即有好处而且只要你一个人出力,那当然皆大欢喜。可以你要做一个事,三年五载不见得有用,又要大家顺着你做些新的事情,那最好还是先去看看《是,大臣》再来琢磨琢磨怎么在大组织里生存。语义网,就是这么一个不上不下的技术。

我的理解RDF是两块,一块是推理,一块是用URI命名。分别问之。

首先,推理是有用的,比如进行一致性(consistency)检查或者完整性(integrity constraint)检查。有些是数据库不能支持的。不过这里,还是用rule(规则),而不是OWL的推理。推理用LP的引擎。rule一般也很简单,很多是自动生成的。那为什么说这和语义网有关呢?其实无关,这个公司也没有用RDF存储。只不过现在语义网成了一个概念垃圾桶(类似网格计算或者纳米技术),什么和知识表现有关的都可以塞进来。

关于URI,对人家是画蛇添足,没有用。

我问,这个语义网的研究人员,怎么能让工业界对这个感兴趣?

首先,你要让对方觉得,你能解决对方的问题。注意,是对方的问题而不是你的技术。要理解对方的问题域,也要求语义网这边的人有工程经验,而不仅仅是语义网。反正人家感兴趣的是知识管理,语义网是一层皮,不要被这皮蒙蔽了自己。

不同的行业对语义网的接受程度不同,还要多比较。



--  作者:lsp_jlu
--  发布时间:4/30/2011 7:34:00 AM

--  
在工业届,轻量级会更被看好一些。
语义Web应该是一种基础技术,可能和数据挖掘、自然语言处理技术能够无缝集成,会更有市场。如何将语义技术引入到实际的产品或改进用户体验方面,或许可以发挥更多作用。


--  作者:admin
--  发布时间:4/30/2011 8:24:00 AM

--  
Clay Shirky不愧为Internet思想家,他的许多观点都值得尊重,关于他对语义网的看法,我不想反对。因为其实,他没说错,因为他针对的是人前的那套语义网概念。没错,作为一个被误解很深的概念(这有主观因素,也有客观因素),语义网其实是人前一套、人后一套的两套概念。前者通常出现在各类大型会议(尤其是早年,比如2006年前)的keynote speech上——通过这种途径认识Semantic Web的人就会出现和Clay Shirky一样的认识:认为Semantic Web要求严格的统一、语义网就是人工智能,等等。很遗憾,TBL最早发表于科学美国人上的那篇科幻文章至今仍在Semantic Web初学者和爱好者中间广为流传着。这就不难解释,为什么至今仍有很多人用质疑AI的态度来质疑Semantic Web,并屡试不爽。归根结底,因为他们受到了不确切、却因种种原因仍在广为流传着的错误SW概念的困扰。更为遗憾的是,因为涉及到技术政治,关于SW概念的肃清,短期内恐怕还难以实现。因此,对SW初学者、爱好者或工业界人士来说,同有经验人士探讨,是能确保正确认识SW的途径之一(在认识到Semantic Web的真谛之前,通过阅读了几篇Google而来的文章之后便放弃了对Semantic Web的探索,这是需要避免的)。总结来说,Shirky批判的对,但他批判的只是已被如今Semantic Web研究者抛弃的那套Semantic Web概念。

至于有人提到,为什么一定要用Semantic Web?我用传统技术(比如文中提到的数据库技术)也能解决!对此我的观点是(从工业界角度):

1。语义网作为一种基础设施技术(即作为基础设施提供给程序员用),它使得工程师们开发语义式应用(比如,最简单的,能够理解同义词) 变得容易。工程师们不再需要为了开发语义式应用自己花费大量精力去开发一套框架、库(也许没有采用语义网技术),而只要利用现成的语义网开发包(如Jena之类)即可完成开发任务。
2。因为,语义网技术作为一种基础设施技术,它是为开发人员服务的,它并不一定直接为最终用户可见(如果让最终用户可见,那么可见部分,将增加对用户专业程度的要求)。
3。语义网应用不在于其功能之强大,而在于其实现支持语义的程序的自然性。就像用C++实现OOP比用C实现更自然一样。用传统方法也可以实现语义式应用,但不如采用语义网技术来得自然。

以下是引用baojie在2011-4-27 23:58:00的发言:
温故而知新:重读Clay Shirky对语义网的批判

Clay Shirky在2003-11-07发了一篇文章,The Semantic Web, Syllogism, and Worldview。我还记得这个文章刚出来的时候,一石激起千层浪,吵得不不亦乐乎。两年前在ontolog上有人又贴出来,又叽叽喳喳吵了一阵(不过在ontolog上什么不会被吵呢?)。当然,对很多人,这题目已经不需要吵了,语义网已经被工业界采用了,你还怀疑不过是无知而已。对其他一些人,认为语义网整个就没戏的,“I told you!”,看,过了八年了,Shirky没说错吧。这些话,十有八九是屁股决定脑袋,取决于paycheck的来源。

总结起来,Shirky说了这么几个问题

推理没什么用(Syllogisms are Not Very Useful)
现实世界中我们说话都是模糊的,没有逻辑的精确性(We Describe The World In Generalities;Meta-data is Not A Panacea)
语义网的应用例子是简单问题复杂化,没有语义网也可以解决(The Semantic Web’s Proposed Uses)
本体是屠龙之技,一般人不需要(Ontology is Not A Requirement )
AI过去50年不能解决的问题,SW就能解决了?(Artificial Intelligence Reborn)
这个世界是乱七八糟的,鸡同鸭讲,试图用一种语言,一种语义一统江湖,那是扯(Worldviews Differ For Good Reasons)
要现实一点,承认现实数据的乱七八糟性,循序渐进,等元数据多了,一点点推进语义网的建设。语义网迟早会来,但不是有人设计它(Worse is Better)
我相信,这里面每一条,尽管过去8年了,尽管技术进步了,现在拿出来都可以再吵上一千回合。这种争吵,我已经没有兴趣看了。BTW,我特别喜欢关于简单问题复杂化的这段话

This example sets the pattern for descriptions of the Semantic Web. First, take some well-known problem. Next, misconstrue it so that the hard part is made to seem trivial and the trivial part hard. Finally, congratulate yourself for solving the trivial part.

当然,这个话可以用在几乎所有的“研究”领域,不仅是语义网。

关于语义网好不好的问题,我觉得要分清几个层次

能不能的问题(科学层次)
容易不容易的问题(工程层次)
经济不经济的问题(商业和社会层次)
大家站在不同的角度来吵这个问题,毫无意义。语义网能不能做这个,做那个?能?如果不能,我们还可以借用A算法来让它能,比如大学B的教授C做的那样…得,又变成学术讨论了。那工程师就会问,你这么做,代价怎么样?活人会按你想的做吗?如果他出错怎们办?如果他懒得连手指头动一动都不干怎么办?最后,VC和商人会问:搞这个要投入多少钱?预期的回报是多少钱?多长时间能回报?用别的技术会不会省钱?政治家和社会活动家也会问:我说我支持这个技术这个会不会促进改进我的形象,拉到更多的选票?这个会不会有助于社会控制?保护或者打探隐私?会不会让别人不知道我是一条狗,blah blah blah

我觉得,语义网作为一个技术规范,没有什么好吵的了,该有的都有了(除了天边的几朵小小乌云)。工业上,要的是应用,要的是效率。达到市场的要求,我看还要10年。什么标志?什么时候维基百科(wikipedia)自己变成语义维基了,这个事就算是真成了。语义维基比语义网要简单多了——语义维基搞不成,为什么会认为语义网搞得成呢?搞语义维基的几个人,向维基百科的头头脑脑进言要把语义加进来,维基百科一直没有被说服。换了是我,也不会被说服,第一,用户素质不行,数据质量保证不了;第二,慢,等你的系统稳定了再来。(BTW,关于语义维基的问题,好题目,以后再讲)。慢慢完善,要时间。

我觉得,W3C的规划(比如层次蛋糕),有点象共产主义——不奇怪,TBL是神一般的存在,大家都觉得他迟早会得图灵奖。W3C规划了一个干净的数据的和谐社会,希望大家都这样去做。可恼的是,俗人偏不这样做。就好象计划经济竞争不过市场经济,W3C这只看得见的手,搞不过市场这个看不见的手——虽然W3C的人都是极聪明的。其实,我心里一直以为,计划经济是优于市场经济——只要我们有足够好质量的数据,足够快的计算机,和足够听话的生产/消费者。这一点,现在还满足不了,所以,我们只好搞乱七八糟的市场经济。语义网的成败,大概也是一样的道理。

P.S. 有人向我推荐看下面的文章

Taming the World Wide Web (Businessweek 2007-04-09)



[此贴子已经被作者于2011-4-30 9:05:43编辑过]

--  作者:baojie
--  发布时间:4/30/2011 11:03:00 AM

--  
以下是引用admin在2011-4-30 8:24:00的发言:
1。语义网作为一种基础设施技术(即作为基础设施提供给程序员用),它使得工程师们开发语义式应用(比如,最简单的,能够理解同义词) 变得容易。工程师们不再需要为了开发语义式应用自己花费大量精力去开发一套框架、库(也许没有采用语义网技术),而只要利用现成的语义网开发包(如Jena之类)即可完成开发任务。

我也听W3C的Sandro Hawke说过这个观点。就是数据交换,数据集成,其实每个公司都在做,每个公司都在重新发明轮子。那为什么不用一个标准来做呢?RDF就是这样一个标准。

这个我同意。如果良好的数据已经有了,RDF应该是一个不错的选择。可是这个前提,往往不成立,就是数据杂乱,本身就不好结构化;或者,是数据库的那种结构化。这时,RDF就不那么吸引人了。重复上面的比喻,连路都没有的地方,要的不是轮子,而是腿,各种各样的腿。


--  作者:baojie
--  发布时间:4/30/2011 11:12:00 AM

--  
从语义内联网到语义互联网(零散笔记)
http://blog.baojie.org/2011/04/28/semantic-intranet/

今天又和另外一个传统公司的语义网研究人员谈语义网在这个公司的应用问题。涉及的话题太多,现在没有时间细写。先放个稍做整理的原始笔记在这里

==语义内联网==

企业为什么会有想法做语义网?试试看,反正不能错过。

语义网在企业中应用,首先只要提高企业的效率,要能挣钱

如何挣钱?节约时间就是挣钱,比如用semantic wiki。或者降低成本cost。

内部推广语义网,涉及mindset的改变。在不同的BU(bussiness unit)之间做,要先搞定人。两种搞定法,自上而下,先搞定经理,或者自下而上,先搞定技术人员,让他们和自己的经理谈

Data mining, machine learning对BU有明确的好处。如果他发布了数据,只对别的BU有好处,他没兴趣搞。

让数据在企业内部流起来。这个过程,语义网起什么作用?不清楚,怎么就format change 到paradigm change?

这么做,和ERP和CIMS有什么关系?

Semantic intranet,外面看不到,有什么意义?BU有什么incentive来做语义发布?

Developer gap – rule的方式很好理解,他本来写在代码里的logic,现在做为一个文件,他再调用一下。但是OWL那种,对程序员的思维方式挑战太大。

语义网能不能有利于重用软件中的知识——很多公司内部的软件都是重复的(code expressed knowledge)。感觉不实用。

太难的本体,不需要,没人会

太容易的本体,大家觉得用不着,写代码里就好了。

RDF的URL命名要不要?内联网上URL是不是鸡肋?

==语义互联网==

大家为什么要publish semantic data?

web 1.0 时代 – 不定向的数据发布。开始发布网页的好处什么?知名度,广告等

web 2.0 时代 - 定向的数据发布,对受众有比较明确的认识?好处?social reward?为什么往Facebook上贴照片?知道有人关注。

我为什么发自己的blog?为什么会根据不同的内容在不同的平台(Facebook, Twitter, Weibo, Kaixin)上转发?明确的回报预期。

Social network在提高数据质量上有什么用?Social network现在可以用来分析受众的特征,根据特征来做有针对性的营销。语义有用吗?暂时不知道。

做RDF Wrapper很简单,问题是BU会问,publish data对我有什么用?

政府数据的推手,想叫政府来示范。现在看,企业界没怎么跟进。政府数据自己的问题也很多。

另外,要注意publish page和publish data的区别

Traffic上来了,revenue不见得上来。Bestbuy搞了RDFa,据说traffic上了30%,但是这后面几个季度,revenue和net income糟糕的很。这两个事,是相关而不一定有因果。

人的因素。每个人提供少量而高质量的数据。所以看好RDFa和Drupal。Semantic wiki也很好,案例也比较多。现在正在开SWMCon。

Semantic internet,跨系统数据集成,如同mint.com或者expedia.com。语义网有用吗?

从数据关联中得到什么好处?从科幻的角度,当然可以说很多。看这本书:”Pull: The Power of the Semantic Web to Transform Your Business

具体如何做数据的联想?如何让相关方愿意开放数据?

80%的时间在数据收集和整理上。真正的数据分析只要很少的时间,比如15%。剩下的5%,语义网或许可以用上一点,锦上添花。经理会问,有什么是语义网可以做,别的做不了的?


--  作者:stoneyard
--  发布时间:5/17/2011 10:59:00 AM

--  
个人觉得工业界已经认可了SW作为KMS(知识管理系统)的标准。 凡知识管理系统必然想到SW
--  作者:baojie
--  发布时间:12/8/2011 5:36:00 AM

--  
语义网、蒸汽机、电视电话
http://blog.baojie.org/2011/04/30/semantic-web-steam-engine/

关于语义网的讨论,往往从技术的角度。其实技术的问题都不是问题。钱才是问题。如果一个技术真的能给人挣钱,那还会没有发展吗?反之,一个技术,10年了,发展到本行的人都不敢说是做这行的,那真要问一下,这个技术的挣钱能力在哪里?

Semantic web或者linked data如何帮助企业盈利了?目前有些小的例子,比如原来搞一个文档,要5个星期,现在用了semantic wiki,3个星期就够了。但是对于大的企业,大的项目,涉及的人员成千上万的应用,生产效率有没有提高?生产成本有没有下降?

这些问题,是工程的问题,是市场的问题。

比如你穿越回十八世纪问,实现蒸汽机最大的障碍是什么?不是因为热力学知识不够,而是到底生产要不要一个大规模的扩展的问题。英国的采矿业、纺织业发展,是因为世界市场在十八世纪逐渐开始形成,生产规模的扩张成为一种经济上的必然,蒸汽机采用,可以提高单位时间的生产效率,自然而然就形成它被采用的动力。反之,在中国,自然经济下生产饱和,采用更高效率的机器也无利可图,那谁会去搞?从终端用户的角度,元数据有没有提高他的工作效率?从Web巨头的角度,元数据有没有提高它广告的投放回报?这些事情,不能想当然。就象分类树,我一度给自己的Gmail,Delicious做了几百个tag,后来发现自己根本记不住 ,而且把自己的屏幕搞的很乱,所以最后还是要搜索。

蒸汽机原理是很简单的,无非是用某种燃料加热水,利用蒸汽推动某种机械的往复运动。但是,不同种类的蒸汽机,效率是大不一样的,依赖机械上的一些“小”发明,比如分离式冷凝器、行星式齿轮、平行运动连杆机构,蒸汽机才最终成功被应用,是很多技术的集成。即使如此,最初把蒸汽机用来拉火车,还是跑不过马。这就好比现在数据库的人问:你语义网和我比,到底好在哪里?工程上形成可以用的技术平台,比如好用的web-scale triple store,推理机,要很多年的技术积累,也会是很多技术的集成。W3C的协议栈,只是其中很小的一块。Jena, Protege这些东西,长远看都是些玩具罢了。

我本科当年学习电视电话,学的是怎么在模拟视频信号上做图像的压缩(比如背景往往是不变的)。这个技术难度很大。你要是问,实现电视电话最大的障碍是什么?15年前我可能会说是这个电话线的带宽或者高频低频信号的分离问题。那现在,视频聊天加上移动互联网,电视电话在技术上早就不成问题了。为什么15年前没有?第一,市场问题,以前电视电话只是极少数人的需要,现在成本下降了,变成了大众需求;第二,相关工程技术的进步,比如 那时候CCD摄像头还是稀罕产物,谁家能有闲钱买个摄像机?数字视频流,宽带移动互联网,这些都是15年前想不到的技术。

语义网现在遇到的困难,我猜测,15年后看,都不是啥困难。这个思路(i.e., 元数据共享和互联)是好的,以后必然会被实现,以后必然会有市场。具体的技术路线,却不一定是W3C这一套了。

P.S. 2011-11-29:现在又过去了7个月,我觉得上面讲的两点,市场问题,相关工程技术的进步,都明朗了很多。很高兴的是,这既是理想,又可以吃饭。


--  作者:baojie
--  发布时间:12/8/2011 5:41:00 AM

--  
Web3.0:互联用户产生的结构化资源
http://blog.baojie.org/2011/05/03/web3/

Web3.0就是互联用户产生的结构化资源

Jie Bao

2011-05-03

==Web1.0和Web2.0的成功==

Web的成功,来自它是“Web”:它将资源互联起来。HTML,HTTP, URL这些东西是Web应用早期的支持技术,但是它们不是Web本身。后来的Web应用,比如QQ,P2P,GoogleMaps,它们用了很多更新颖的通信技术,并不是说,浏览器里的应用才是Web应用。用了HTML或者别的标记语言(Markup Language)的应用,如果不遵循Web的互联原则,它不能算Web应用: 比如Latex(至少到目前为止)。

Web 2.0的成功,来自它增加了资源的来源。Web 1.0时代,资源主要来自少数网站的编辑。Web2.0使每个人,只要会使用计算机,都可以成为资源的提供者。一个新的资源(比如一个新的Tweet),又会激发其他的资源被产生。这里面最主要的技术,我以为是Web Form(表单):表单使用户不需要知道HTML或者服务器设置就可以发布资源。

==Web2.0到Web2.5==

在我看来,论坛(Forum, BBS)这种形式就已经是Web 2.0了,中国的Web时代开始于90年代后期,赶上了Web1.0时代的尾巴,而论坛大行其道一直到现在,这就是Web 2.0,比什么Wiki, blog, microblog都成功。美国这边BBS不发达(相对中国),email list, usenet当年是主流,所以后来有了social web,觉得新鲜,其实中国大学生泡妞早就用BBS了:请比较美国电影《电子情书》( You’ve Got Mail,1998)和同年的小说《第一次亲密接触》,你会发现美国泡妞和中国(小说是台湾的,大陆也一样)泡妞技术手段有代表性的不一样。到今天,天涯论坛的影响力还是开心网不能比的。

Web 2.0被称为social web,有些人认为是因为它将社会关系引入网络故而成功。我以为,社会关系是web 2.0已经成功以后的添加剂,如果依然使用HTML来发布资源,社会关系是无法大规模映射到网络上的。有一种观点:一个失败的Web公司建一个网站,一个成功的Web公司建一个社区。社区的构造,并不自Facebook始,也不自实名制始。社会关系的引入,是个人化了原有的社区,论坛等,使原来不适合在大众场合发布的资源(比如:“我现在在吃早饭”),现在合适了,这就激发了资源的发布。资源数量的增长,使大规模的和用户相关的数据分析成为可能,从而激发了新的商业模式和盈利手段,使这个过程可以良性循环下去。

那为什么Facebook和Twitter抢了大量的眼球而不是传统的论坛(以至于电影《Social Network》就是讲Facebook)?因为他们意识到了传统的交互式发布手段所忽视的一些东西:关系。这些关系,可以是人的关系(比如朋友,比如关注),可以资源的关系(比如回帖,比如附件),可以是人和资源的关系(比如发布,比如喜欢)。早期的社交应用,比如QQ或者BBS,坐在这样的宝山上不知道用,把这些关系本身隐藏着在他们的系统的零零散散的地方。Facebook和Twitter将这些都打破了。对商业来说,你用户说了什么其实不最重要,你和其他用户或者某种产品的关系才是重要的。Facebook和Twitter提供了这种资源采集的手段,作为Web上的“关系”的传感器,绕过了机器学习或者自然理解这些复杂的手段,直截了当地使资源被利用。从这个角度讲,Facebook这一代应用应该称为 Web 2.5。

==什么是Web3.0==

Web 3.0,并不是语义网,更不是RDF/OWL。我觉得,这个核心就是如何促进更多的资源被加入正循环:更多资源,更多商机,更多资源… 之所以我们需要高质量的资源,是因为高质量的资源包含更多的商机(相对成本),而不是因为我们喜欢高质量本身。比Web 2.0或者Web 2.5时代实现资源采集和使用方式的本质变化的,就是Web 3.0。

其实Web3.0时代已经开始了,和所有的技术演进一样,它是悄悄的,不经宣传的。它也通常是不经规划,而通过对成熟技术的整合而出现的。事先的规划未必有效,发展的动力未必是技术的追求。对代的变化,应着眼于资源生态链的模式变迁,而不是一种具体的技术手段。

尽管Web3.0的最终模式我们不可预料,它早期的一些脉络,我们或可管窥。

首先,Web 3.0将是对Web2.5的一种演进而非革命。正如Hendler在Web 3.0: Chicken Farms on the Semantic Web里讲的,Social Web有助于Semantic Web所需要的数据发布手段。Web 3.0上的资源,最大量的,还是人们日常生活中的那些活动和资源在Web上的映射。比如我们在哪里买东西,买了什么,我们和谁打电话,我们在路上看到什么。这些,现在大家在Facebook和Twitter上都在做。Web 3.0将以一种前所未有的方式将更多有用“没用”的数据弄到Web上来。谁忽视这些“没用”的数据,谁就会失去商机。

其次,Web 3.0上的资源,必然需要一种门槛更低,更方便的发布方式。Web 1.0时代(HTML时代)的数据发布者大概不过几千万人。Web2.0时代(表单时代)在十亿人规模。Web3.0时代(传感器时代),要将世界60亿人口中绝大多数都变成数据的发布者。这个方式的雏形,现在是利用手机之类移动平台。手机作为全方位的传感器:文字,语音,图像,光线,重力,时间,空间(GPS),姿态,压力,方向,加速度…….是极佳的数据采集平台。而且,它对使用者的要求远比计算机低,使文盲和老人都有可能参与进来。手机的意义,就如同当年表单的引入,使资源发布的规模出现数量级的变化。不仅有硬件的传感器,还有软件的传感器:用户在终端上的行为会被详细记录,经过某种优化、过滤和隐私保护,自动发布到Web上形成有价值的数据。以后有什么更新颖的方式,不可预料。

又次,Web 3.0上的资源,将不仅仅是文字,图像,视频这些传统的资源,而且会有更多的非传统数据,比如GPS位置,比如速度,比如背景噪声。通过这些数据的分析,并利用Web 3.0上其他的数据,商家(在一定隐私保护条件下),可以推理出,某人正在接孩子上学,某人正在开会,某人和某人是同事等等。这些信息,对商业的意义,不言而喻。

这些Web 3.0上的新资源,天然是结构化的。我们身边结构化的数据并不少,比如我们回邮件,邮件之间有“回复”关系。可惜这种关系通常被浪费了,你要在一堆”RE”,”RE RE”中来阅读查找,而不可以查询。Web 3.0将充分使这些用户产生的数据用一开始就是结构化的,而不需要依赖并不成熟的AI技术来从非结构化数据中获取结构化数据。这种数据,使我们对它做语义的标注和推理成为可能。比如我们可以通过用户历史GPS位置采样和商店的分布数据来推理他的购物偏好。从这个角度,语义网将成为Web 3.0的一个支持技术。但语义网的大规模应用,将是在用户产生的高质量结构化数据成为现实之后,而不是之前。目前的语义应用,很多只能称为语义技术的应用,而不是语义网的应用——正如Latex是标注语言的应用而不是Web的应用。

==从动作到资源==

Web 1.0 和Web 2.0时代的资源,大多通过鼠标和键盘建立。Web 3.0时代,只需要更少的努力,就可以将资源发布。所有的动作,都可以产生资源,主要是各种数据。

不仅手机将是这种资源的来源,人的各种行为都将容纳到Web资源的发布中。比如电视节目的选择和查询。又如带wifi的体重仪,可以将体重自动发布到用户的健康监督网站,甚至自动发送给他的医生。又如通过带有3G和GPS的车辆,Web用户将精确地知道发生交通堵塞的地点和原因和各路段的平均速度。其他如电表,冰箱,跑步机,婴儿床,都可能成为数据的来源。

各大网站目前都在做用户行为数据的收集。但是,这些数据被作为私有资源,提供数据的用户本身并不能从中得到直接利益。这种模式不利于刺激数据的产生。只用当用户的数据被以某种方式安全的方式互联,并直接反馈利益给用户,数据才会以前所未有的速度产生。

P.S. (2011-05-19)  上面说的,有读者认为类似“物联网”的概念。我认为,物联网本身并不是我试图推销的概念。关键,是合理的记录用户的行为,自动产生有价值的数据。传感器是一种有效的方式,还可能有很多其他的方式,试举几个生活中的例子

我在查询一个研究方向的过程中,下载了很多文章,然后将这些文章归档,建立页面并加链接到Bibtex。有时,还要搜索作者的个人主页。这些工作,很多完全可以自动化,在我浏览的过程中可以通过记录我的行为完成,并加以部分的数据集成(如从DBLP)
每年报税的时候,一年中所有的收入和交易应该自动汇总,而不需要报税人手工输入。
==数据之互联==

用户所产生之结构化数据,需要在不同Web应用之间建立关系。我搬一次家,要在上百个网站修改我的家庭地址(一种结构化数据)。我所有的web login,打印出来起码有10页纸。整合此类数据的跨系统集成和重用,被很多人认为是Web3.0的特征之一。

这种互联,比如Facebook就在做。OpenID做了很多年,不成功,因为它缺少背后的商业利益。Facebook的互联,形成了一种可怕的数据集成力量。这种力量可以用来做非常多的事情,正面或者邪恶的。

用户行为产生的数据,将可以和某种知识库相联系,如电视可以和IMDB相连,ATM可以和Yodlee相连。由此,可做某种简单的查询和推理,例如列出今晚各频道所有有中国血统演员的电影。或者进行推荐。其间用到的推理,一般会是极简单的规则(如分类树),但需要实时的响应。

==什么不是Web3.0==

Web3.0现在是一个流行词(Buzz word)。本文只讨论Web3.0上资源的一些特点,Web3.0还有很多其他可能的特性,并未涉及。但有些技术,并不可视为Web3.0的核心特征。他们和Web3.0或有相关性,而非因果性。

云计算和网络存储(从BBS时代开始,就已经“云”了)
实时网络(实时性乃是数据采集方式变化的另一个结果)
智能网络(所谓的复杂的推理和agent技术,并不是Web3.0的必要条件)
物联网(Web3.0需要数据来自用户的行为,数据发布自动化;传感器是一种方式,但未必是唯一的方式)
==总结==

本文认为,Web的代际演进,核心问题是资源的发布和利用方式的变化。Web 3.0将是在现在的Social Web的基础上演化出来的新的资源生态模式。其支持技术包括资源发布技术(如手机),资源采集范围(如地理位置)和资源集成方式(如语义网和推理)等。新资源发布和利用方式和新商业盈利模式的良性循环互动,是其成功之关键。


--  作者:xiuleiliu
--  发布时间:12/18/2011 10:46:00 PM

--  

W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
191.406ms