以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  语义网的公司[持续更新中]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=90576)


--  作者:baojie
--  发布时间:4/25/2011 9:48:00 AM

--  语义网的公司[持续更新中]
最近我开始整理一些语义网工业界的情况,大概一两天写一篇的样子,写在我的blog上。原帖有些链接和图片。很多公司都是小公司,不过各有特色。

总的目录在这里:

http://blog.baojie.org/category/%E6%8D%A3%E6%B5%86%E7%B3%8A/%E8%AF%AD%E4%B9%89%E7%BD%91/%E8%AF%AD%E4%B9%89%E4%BA%A7%E4%B8%9A/


--  作者:baojie
--  发布时间:4/25/2011 9:50:00 AM

--  
语义网的公司(1)Openlink
http://blog.baojie.org/2011/04/23/openlink/

今天开始整理一些和语义网相关的公司的情况。并不是系统的介绍,只算是我知道多少讲多少。有些公司的业务和运行模式或许有借鉴意义。语义网的公司太多,我接触的很少,只能只挂一漏万地做一点笔记。找这些公司,最好的渠道是Semantic Technology Conference (SemTech)。

先说Openlink。公司的网址是 http://www.openlinksw.com/

先说它是因为它离我家很近——Oracle更近,下一个讲。这个公司注册在美国Burlington, Massachusetts,在欧洲也有几个点——其实这更多是一家“虚拟”企业,用网络联系起来工作的一种模式。很小的一个公司,大概五、六十人的样子(可见每个点都很小),历史倒不短(相对而言),成立于1992年。公司目前最主要的产品是Virtuoso Universal Server,是一个语义数据库(semantic database, or triple store),功能很强大,RPI的开放政府数据网站用的就是Virtuoso。这个系统现在又有很强的互联数据支持(linked data),可视化模块等。软件是免费的,主要通过服务赚钱。还有一个开源的版本,在SourceForge上。搭中小型的应用,个人觉得这个数据库系统很好用;大的应用我没接触过,没有经验。

下面是Microsoft Pivot + Virtuoso 的一个可视化的例子

这个公司的CEO是Kingsley Uyi Idehen(他生于尼日利亚),十分活跃。要了解公司的近态,可以去看他的Blog, Youtube或者Twitter(更新非常勤)。他也是Cambridge语义网Meetup小组的常客。找该公司其他员工,去看LinkedIn。

其他链接

    维基百科 http://en.wikipedia.org/wiki/OpenLink_Software
    W3C Wiki上对Virtuoso的介绍 http://www.w3.org/wiki/VirtuosoUniversalServer


--  作者:baojie
--  发布时间:4/25/2011 9:51:00 AM

--  
语义网的公司(2)Oracle
http://blog.baojie.org/2011/04/23/oracle/

Oracle的语义网组(称为Oracle Semantic Technologies)在Nashua, NH。Nashua是个小城市,离波士顿大概1个小时的样子。

我以前住在Oracle公司的街对面,散步的时候经常会溜达过去。我和他们的接触,开始来自和Alan (Zhe) Wu在OWL Working Group(工作组)的共事。他们和RPI关系很好,我们常有学生去实习。双方对对方的研究进展,还是比较了解的。

Oracle数据库从10g开始(现在是11g),支持RDF。工业界是很实用的,所以对OWL DL之类,他们并不实现。有一个OWL Prime,是对RDFS的一个小扩展,是他们支持的一个OWL的子集。他们还和Jim Hendler一起提出了RDFS 3.0 ,算是他们认为有用而又可以比较经济地实现的。后来的OWL 2 RL和OWL 2 QL,设计的理念和这个不同——OWL工作组的主流认为,这些OWL的子集是以技术为准绳的,凡是是理论上可以加进去的(也即,不破坏多项式时间复杂性的)元素,都要加进去;凡是理论上不能加的(比如OWL QL中的owl:sameAs),都不能加。那Oracle(或者其他工业界的公司),并不怎么在意这两个凡是的,反正我的产品里,用户最需要什么,我就要支持什么。他们现在也支持OWL RL和OWL QL,而且往里面加了一些可能逻辑学家觉得不能加的东西——不过工程吗,总有工程的办法。谁会在乎最坏时间复杂性呢?能用,就好。比如去年他们的ISWC 2010文章 [1],就讲了对owl:sameAs推理的一些技巧。

Oracle现在也在做一些并行计算的东西,还有很多推广和应用,具体可以看Oracle OpenWorld 2010上的一些案例。

Oracle产品的介绍文档非常多,开始不妨看看下面这几个

    Who’s Who and What’s What with Oracle Database Semantic Technologies 【基本工作介绍】
    Semantic Technologies in Oracle Database 11g Release 2: Capabilities, Interfaces, Performance 【Oracle语义数据库的介绍】
    Oracle Database 11g—Inference Best Practices with RDFS/OWL—Oracle White Paper 【白皮书】

Oracle语义网组的主页,上面有更多产品介绍,教程等等:

http://www.oracle.com/technetwork/database/options/semantic-tech/index.html

他们近年发的一些文章,可以大概看出他们的业务范围:

    Vladimir Kolovski, Zhe Wu, George Eadon: Optimizing Enterprise-Scale OWL 2 RL Reasoning in a Relational Database System. International Semantic Web Conference (1) 2010: 436-452
    SeemaSundara, MedhaAtre, Vladimir Kolovski, Souripriya Das, Zhe Wu, Eugene Inseok Chong, Jagannathan Srinivasan: Visualizing large-scale RDF data using Subsets, Summaries, and Sampling in Oracle. ICDE 2010: 1048-1059
    Souripriya Das, Jagannathan Srinivasan: Database Technologies for RDF. Reasoning Web 2009: 205-221
    Zhe Wu, George Eadon, Souripriya Das, Eugene Inseok Chong, Vladimir Kolovski, MelliyalAnnamalai, Jagannathan Srinivasan: Implementing an Inference Engine for RDFS/OWL Constructs and User-Defined Rules in Oracle. ICDE 2008: 1239-1248
    Souripriya Das, Eugene Inseok Chong, Zhe Wu, MelliyalAnnamalai, Jagannathan Srinivasan: A Scalable Scheme for Bulk Loading Large RDF Graphs into Oracle. ICDE 2008: 1297-1306
    Eugene Inseok Chong, Souripriya Das, George Eadon, Jagannathan Srinivasan: An Efficient SQL-based RDF Querying Scheme. VLDB 2005: 1216-1227
    Souripriya Das, Eugene Inseok Chong, George Eadon, Jagannathan Srinivasan: Supporting Ontology-Based Semantic matching in RDBMS. VLDB 2004: 1054-1065


--  作者:baojie
--  发布时间:4/25/2011 9:52:00 AM

--  
语义网的公司(3):Franz
http://blog.baojie.org/2011/04/24/franz/

这家公司在硅谷,主页是http://www.franz.com/。很小的公司,不到十个人,有tech geek的工作作风,有点象硅谷其他的startup;很多活是请顾问(consultant)和实习生(intern)来做——这也是很多小公司的工作方法。

主打产品是AllegroGraph(AG),一个TripleStore。AG是基于Lisp的,有很好的编程界面。从学术的角度,AG是有独到的地方的,很多传统的AI的东西都可以加进来。比如时态推理和空间推理,AG都支持。SPARQL当然是支持的,尽管有人认为不是最好的。推理上,他们称为RDFS++,就是RDFS加owl:sameAs,owl:inverseOf和owl:TransitiveProperty。现在他们还做社交网络数据的支持,比如Twitter的数据。应用也蛮多,比如交通。

他们公司有例行的Webinar,值得去学习。Youtube上也有不少教程。公司的头是Jans Aasman,本来是个学者。


--  作者:micky
--  发布时间:4/26/2011 12:55:00 PM

--  
全力顶一个先。
再赞一个!
--  作者:baojie
--  发布时间:4/26/2011 2:41:00 PM

--  
语义网的公司(4)Revelytix
http://blog.baojie.org/2011/04/26/revelytix/

Revelytix也是一个小公司,成立于2005年。公司在DC北边不远Sparks, MD。我和他们接触不多,主要信息来自一个听他们一个talk。但是我用knoodl很久了,很喜欢,一直不知道是他们公司的。

先说Knoodl。这是一个基于语义维基(semantic wiki)的本体编辑器。你可以建一个帐号,然后建本体,支持OWL,也支持SPARQL查询,可视化,版本功能等。Protege有一个在线的版本,功能很差,没有Knoodl好用。我自己其实很饭这个基于维基的本体合作开发,用jspwiki和SMW都试过。这个事,说起来容易做起来难,特别是用户界面的事(我试过表单+受控自然语言)。Knoodl用户已经不少。我个人觉得,在线编辑和合作编辑是方向,Protege和TopBraid Composer只适合专家用户,对大多数公司的大多数人,用wiki做一个简化的本体编辑器,比较靠谱。

这里有一个关于Knoodl的视频


随便扯几句本体编辑器。我用过的本地编辑器也就Swoop,Protege和TopBraid Composer,觉得这些东西还都是门槛很高,而且不适合大规模工程的。TBC算是最好的。但是,本地的开发的模式还很落后。我去年做ISWC的元数据,10万个triple上来,用TBC查找啊,更新啊,就累得要命——因为它不象软件工程,给你模块化。出错,调试很麻烦。用户界面始终是大问题,最好是傻瓜的全触摸,全图形的界面。Protege这一点有时很恼人,一看就是给KR的人设计的,有很多Manchester syntax。希望这么说不要得罪人。BTW,MIT的David Karger在研究本体的UI问题,说不应以后会有惊喜。

Revelytix另一块工作是分析(Analytics),一个系统叫Emergent Analytics,就是knool做本地开发,Spyders 做关系数据库到RDF的转化(这个发布不久),Federator 做关系数据库的SPARQL查询接口,再加上一个RIF推理。偷一张他们的图:

这个公司目前大概有10-20人。有几个人值得提一下 [1,2] (别的没提,是我没见过或者不熟悉),更多看LinkedIn

Michael Lang [CEO] 有金融背景
Gregory (Greg) Milbank [president]
David Schaengol 他在搞RIF和策略语言
Paul Gearon 算是比较资深的语义网专家了
Alex Hall – knoodl就是他写的
Alex Miller - 主要做RDB2RDF [BTW, Revelytix的David McNeil在W3C RDB2RDF Working Group里]


--  作者:baojie
--  发布时间:4/30/2011 10:30:00 AM

--  
语义网的公司(5)Vulcan: Project Halo
http://blog.baojie.org/2011/04/29/vulcan/

Vulcan Inc.是一家投资公司,由微软的共同创始人Paul Allen创建,在西雅图(Seattle, Washington)。

Vulcan投资很多事情,比如宇宙飞船。Allen的钱已经足够多,有些投资看起来纯粹是兴趣或者好奇,并不打算挣更多的钱。他对语义网和知识管理的投资,大概就属于这一类。

这个方向,主要是一个Project Halo,主页在http://www.projecthalo.com/。长期目标是开发一个数字亚里斯多德(Digital Aristotle)系统,一个可以解决复杂的科学问题或者日常问题的推理系统(a reasoning system capable of answering novel questions and solving advanced problems in a broad range of scientific disciplines and related human affairs.)现在,它的主要应用域是教育,并试图解决知识获取和自动推理中的若干问题。

Halo是一个很宏伟的计划,从2003年开始,已经8年了。项目的总负责人是Mark Greaves(之前他是DARPA的Program Manager,负责过DAML)。主要分三块,每个项目上人也不多,核心就几个人,很多研究靠外包。

AURA ( Automated User-Centered Reasoning and Acquisition System): 面向用户的自动推理和获取系统。主要是做教科书的形式化,集中在生物、化学、物理三个专业。方法目前主要是逻辑的,用描述逻辑(description logic),逻辑规划(logic programming)等。工作外包给SRI International 来做。负责人是Vinay K Chaudhri 。【这个项目很有趣,我以后可能会深入介绍】

SMW(Semantic MediaWiki)+。SMW自己是开源的,SMW+对SMW做的了很多扩展,统称为Halo Extension。比如一些标注工具,本体编辑器,可视化,项目管理插件等等。Vulcan自己这边主要是Jesse Wang(中国人)在负责。有些任务外包到Ontoprise(一个德国公司)。这一块以后也会详细讲。

SILK(Semantic Inferencing on Large Knowledge ),主要是研究表达力很强的规则语言(rule language)。SILK是一种default LP,基于良基语义(well-founded semantics),里面集成了强否定, 弱否定(NAF)和高阶逻辑(HiLog)。他们还定义了一个RFI的非官方方言,RIF SILK。主要的负责人是Benjamin Grosof,以前是MIT的研究员和RuleML的一个主要设计者。合作伙伴是BBN Technologies(这个公司我以后也会深入介绍),主要是和Mike Dean,一个非常资深的语义网专家和DAML的设计者之一。

所有这些,都不直接挣钱,纯研究。


--  作者:baojie
--  发布时间:5/1/2011 2:00:00 PM

--  
语义网的公司(6)Siri
http://blog.baojie.org/2011/05/01/siri/

Siri是iPhone上的一个应用。主要的用处是你对着iPhone说一句话,比如“MIT附近的意大利餐馆”,它会做语音识别+自然语言理解,然后查一些数据库(比如OpenTable, Yelp, Tickets.com),把结果以友好的方式,比如地图,展示给你。

下面这个视频演示了Siri的基本用法:


这家公司成立于2007年12月,到2010年4月就被Apple给买了。Siri的背景很强大,她的母体是SRI International(原斯坦福大学研究所),成果部分产生自CALO(Cognitive Assistant that Learns and Organizes)工程(主页在此,RPI也参与了CALO,见此)。CALO是一个军方资助的项目(SRI大部分项目都是政府或者军方的,这也是为什么它被迫从斯坦福大学独立出来),目的是开发Personalized Assistant that Learns (PAL),钱特别多,足足养了300多人,先后发了500多篇文章。最后附带产生一个Siri,那是小儿科——尽管它最后的产业化还是花了5年并让开发团队平均每人长了14磅肉。

另外注意, Tom Gruber 是Siri的CTO和co-Founder。早期写语义网学位论文的,哪个不引用他对本体的定义:“An ontology is a specification of a conceptualization”?Tom在ISWC2004的主题发言中,说他正在做一个旅游有关的语义网站。Siri虽和他说的不完全一样,思路还是一贯的。感兴趣的,去看他在SemTech09的忽悠或者这个podcast。

为什么说Siri是一个语义网的应用?不在于它内部有没有用到RDF(我想是没有),那在于它打破了网站之间的数据壁垒(data barrier),让许多不同类型的网站的信息集成起来用。有人会说,这有什么稀奇,不就是Priceline十年前就会做的吗?我同意,而且补充说,Priceline也可以算原始态的语义网应用。Siri单从数据集成的角度,比一般的聚合网站更进一步,针对每个用户个人的偏好和环境(context)做集成,提高了数据的质量。做Linked data,并不是说要大家去把数据都包装成RDF,而是要许多服务之间可以对话,可以相互查询并做简单的“理解”(比如分类树推理)。重要的是精神,而不是形式。

Siri在语音识别(似乎是用Nuance的技术——另一个SRI的spinoff)、自然语言理解和用户界面方面的工作,也是出彩的。如何分析句子中的“语义”,想必有很多可以和IBM沃森比美的技术秘诀。能把许许多多的技术集成在一起(具体看这里),也是极需要下狠功夫的。

那Siri到底成功不成功?现在还很难讲。在AppStore上,目前的评分是3星,有1.2万个评分。作为对比,Skype有31万评分,3.5星; Yelp有9万评分,3星;TripIt有1.1万评分,3星。所以成绩还是不错的。

我个人的Siri体验并不太好,主要是它不适应我的英语口音。有些句子,我敲进去它也不知道如何处理(我比较坏,问一些偏门的问题比如从MIT CSAIL到BBN怎么坐车?)如果人来看看Wikipedia,那是可以把这背后的知识勾出来的,Siri还不行。我看,Siri要面临的挑战比IBM沃森还大。因为沃森不需要会回答所有的问题——它只对70%的问题有80%的正确率,它可以不回答那些它没有把握的问题。可是对个人用户,如果我回答的问题十个里有三个Siri回答不出来,至少对我,很快就会丧失用它的兴趣。

语义网的应用,面向企业(比如银行或者药厂)的和面向个人用户的,那是大大的不一样。现在面向个人用户的的应用还实在太少,界面方面的工作还太少。(iPhone好在哪里?第一个就是界面)

最后我套用马克思评价货币的话:RDF天然是语义网,但语义网不是天然是RDF。Siri为我们提供了另一种思路。


--  作者:BlackBoy
--  发布时间:5/1/2011 5:13:00 PM

--  
首先,如果此贴不能回,请管理员删之,因为我没看见这么好的帖子有任何回帖,也没看到有说明不能回帖。
你好,baojie,很感谢你提供如此多的关于语义网公司的信息,我自己一直在找却没找到多少。我是一名大学毕业生,接触语义网不久。我准备出国留学,感觉语义网是一个新兴方向,很感兴趣。但是一直很疑惑,在美国语义网未来两三年内的就业情况如何。在此想请你分析介绍一下,谢谢。
--  作者:baojie
--  发布时间:5/1/2011 11:59:00 PM

--  
总的来说,懂SPARQL/OWL/RDF对找工作有好处,但是只是懂这些那是不够的,最好加上machine learning, natural language processing等。

如果只是做研究,那是很难找到位置的。


--  作者:BlackBoy
--  发布时间:5/2/2011 3:30:00 PM

--  
那么,工业界对语义网技术人员的需求量大吗,如果掌握甚至精通这些技术(rdf/owl/sparql/machine learning/natural language processing等)后,就能作为语义网人才进入工业界吗? 还有,您说如果只做研究是很难找到位置的,我不太明白。您的意思是如果只是在高校里进行语义网的学书研究是很难找到位置的吗?
--  作者:baojie
--  发布时间:5/2/2011 8:46:00 PM

--  
工业界目前对语义网技术的程序员需求是很少的(相对其他类型程序员)。工业界的研究位置也很少。一般来说,语义网是简历里重要的组成部分,但千万不可以是唯一的部分。别的技能,或者是编程,或者是很多工程经验,或者是别的研究经历,是极有必要的。
--  作者:baojie
--  发布时间:5/31/2011 3:27:00 AM

--  
语义网的公司(7)BBN
http://blog.baojie.org/2011/05/18/bbn/

BBN的总部在Cambridge, MA (马萨诸塞的剑桥市),也就是MIT所在的地方;在DC有一个分部,以方便和大客户(也就是美国政府)打交道。它的几个创始人(也就是B、B和N),是MIT的校友。BBN并不大,600多人吧,但是小而精,网罗了很多第一流的人才,比如John McCarthy和Marvin Minsky都在BBN工作过。最近20年,它被大公司卖来买去,现在是雷神( Raytheon,造战斧导弹的那个)的一个子公司,所以全称是Raytheon BBN Technologies.

早先,这个公司是搞声学起家的(现在它的声学和自然语言处理还是很强的,比如Boomerang系统)。因为声学处理要用到很多计算,慢慢进入计算机领域。BBN在网络方面有很多贡献,比如ARPANET和电子邮件(@符号就是BBN的Craig Partridge提出的)。近年来在量子通信和语义网上,都有很多研究。这个公司的客户,主要就是军方和政府。

BBN从DAML开始,就参与语义网的工作。最近军方的两个超级大项目,ITA和CTA,BBN都是主力之一,里面有很多关于语义网的子项目。如果要展开了说,一个帖子肯定说不完。

下面这个图(by Dave Kolas)[Slides],概述了BBN近期的一些语义网的工作。点击图片可看视频。

更早期(2008)的一个介绍,看这里:http://videolectures.net/iswc08_dean_swb/

BBN的语义网的工作,主要还是基础研究和应用基础研究,并不卖产品。军方把它的成果拿去,自己内部再消化。大体上有这么几个方向

知识表现和推理(BBN有好几个搞描述逻辑的)
语义维基(这个对情报很有用)
规则语言(如SILK和RIF)-这个和Halo Project合作。
通信中的本体建模
地理空间系统中的语义(Geospatial)
查询系统,比如Parliament和SHARD
Web服务

BBN的语义网方向,Mike Dean是一个主要的研究人员。Mike以前是DAML委员会的主席。还有Mark Burstein,贡献主要在Semantic Web Service上,是OWL-S的作者之一和SWSA的主席。其他一些相关人员,看Semantic Web Dog Food的页面。


--  作者:underpressure
--  发布时间:10/4/2011 2:55:00 PM

--  
好贴,拜谢!!
--  作者:lsp_jlu
--  发布时间:10/9/2011 8:31:00 PM

--  
写的很不错,支持支持。
--  作者:baojie
--  发布时间:12/7/2011 6:49:00 PM

--  
语义网的公司(8):Chevron
http://blog.baojie.org/2011/12/07/chevron/

Chevron(雪佛龙)是一家石油公司,不是互联网的公司。之所以在这个系列里写这个公司,是因为Chevron是一个很有代表性的传统行业的公司试图做语义网应用的例子。写了它,其他很多公司都不必写了。

我素材主要来自下面这些

W3C博客:Interview: Roger Cutler on W3C and Chevron use of Semantic Web Technology,并加一点我的想法。
更新的介绍,有Chevron在SemTech 2011的talk,Realizing the Semantic Web Promise in the Oil and Gas Industry Domain: Challenges and Experiences (slides)。
关于语义网在石油行业的应用,还可以参考W3C Workshop on Semantic Web in Oil & Gas Industry,2008年12月。[对搞清楚这个领域有什么公司和个人,必看]
先说一个基本评价:到目前为止,语义网在雪佛龙的应用,只获得了非常有限的成功。这种成功,主要是技术的而不是商业上的。公平地说,这不是雪佛龙的错,而是语义网界早期提供的样板模式,真的不大靠谱。

闲话:我们经常在新闻或者宣传上看到,某某行业或者某某公司使用了某某新颖技术云云。看到这种文章,要先留个心眼,第一先想这个技术是不是真的是它的核心技术,还只不过是一种营销的宣传手段;第二是想这个技术是不是真的实现了商业价值,或者提高了用户体验。对语义网的宣传文章,当然不能一棍子打死,但是我现在去SemTech或者ISWC,已经不怎么容易被公司的宣传打动了。

雪佛龙之所以进入这个领域,其实是抱着一种试试看的心理。我知道的几个传统行业搞语义网的,差不多都是这个模式:有一个头在某种场合被合适的人忽悠了,觉得这个技术值得跟踪一下,就指定某个技术负责人来试试水,手下或一两个,或三五个兵,开发几个本体或者演示应用。效果不好,就停掉;好,就加人;还看不清楚(这是最一般的情况),就先维持着。

Roger Culter和Frank Chum就是雪佛龙里做这一块的代表(还有其他几个人),从2004年就开始做了。工作其实不少,主要是这么几个

一个是用OWL在做油田的本体,应该就是BASIN。本体的开发走了一个经典的本地工程的生命周期:知识专家和领域专家谈,建立知识模型,再形式化为一个OWL的本体。

Culter说,这个本体本身还算技术上的成功,但是很多年以来,一直搞不清怎么能用它带来商业的价值。

我的点评:传统的思维,是先建领域本体,把领域知识表示好了,再填数据进来,搞应用。这种方式,和传统数据库建模的方法有内在相通之处,往往比较容易被接受和入手。不过,现在看,这种方式除了在少数领域,不大容易成功。更多的情况,你的本体是死的,数据是活的,你总是跟不上数据的变化,或者不能包括数据的复杂性。知识专家和领域专家都是很贵的,一般的公司不一定用得起(连雪佛龙自己都说不容易找到好的contractor)。更要命的是,很多问题,特别是Web上的,根本就不存在领域专家,甚至连到底是哪个领域,都不可预测,不可穷举——每个人都是自己的“领域”。传统的从专家系统一脉相承下来的知识工程方法,不革命一下,想换个马甲叫做“语义网”方法,我看,下场大概会和专家系统差不多。

另一个应用,是搞数据集成。这也是特别经典的语义网教科书应用。具体做法,还是建个OWL本体,把原先分散的知识(比如各种手册里的),形式化出来,让相关方,比如造设备的、维修设备的、和使用设备的,都能用同一种语言来沟通(这是理想)。遗憾的是,这个数据集成项目,也是技术上的成功而不是商业上的成功。

我的点评:2003年到2005年,我也做了一段时间的基于语义网技术的数据集成,主要是在生物领域做。同样我们也是想有一个本体,然后不管原来的数据集是什么样,映射到我的本体上来,这个数据集成的问题不就解决了?这种做法,发发文章可以,到底有多少实用价值,回过头来看,不清楚。说实话,搞语义数据集成的人和项目不要太多,我当时数了数,可能有上百个项目吧,打印出来贴在黑板上足足一黑板高。看了非常多的文章以后,我的感觉是,其实怎么建本体不是问题,怎么映射本体才是问题——而本体映射,到现在,还是研究问题(research in progress),离工业化还是有距离的。

我现在觉得,基于“语义”的数据集成,恐怕一样不能走这种先搞本体的道路。靠人来理解多个域的知识(比如几个不同的车间,每个车间都有上百页的手册),这个不仅代价大(照AURA的估计,一页500美元吧),而且很难完备的把多个域的知识映射好。核心问题还是在数据而不在本体。具体怎么做,还要多学习。

为什么雪佛龙的这几个项目不太成功?Culter解释说,部分的因为对石油工业的工程师而言,OWL实在是太难理解,太难使用了。

我相信这是一种普遍的现象:不管是OWL,OWL 2还是RIF,它们的认知复杂性都太高,程序员和领域专家搞不懂。我现在对语义网界内部试图进一步增强语言表达力的工作已经不太关注了——尽管我以前也干过这种事。

那是不是语义网就没用呢?当然不是。Culter说,其实语义网的用处,不在于它能干数据库干不了的事,而在于它可以更方便的做。他举例说,某个应用,用语义网的技术15行代码就很清楚了,用数据库要1000行代码。也就是说,语义建模其实是标准化了传统上数据库程序员要花很多精力琢磨的一些技巧。现在有了样板方法,不再需要学习这些技巧,降低了开发代价。[这个论证,我也用过。]

可是为什么这种技术的优势不能带来业务上的好处?我想,最关键的原因还是用传统的数据库的思维来套语义网的应用:schema, 然后数据,然后应用。这样做,恐怕很难突破传统数据库方法的势力范围。而降低的一些开发代价,往往被学习语义网技术本身的代价抵销了。我倒觉得,应该把次序倒过来(见《语义网就是数据》),先考察应用,决定应用的数据,然后大体上有一个模型;也不一定要钉死,业务、数据变了,模型要跟着变。

Culter倒说了参加W3C工作的一个实际好处:认识人。通过开会啊,讨论啊,建立的人脉,特别有用。另外一个好处,就是学会了W3C的议事程序,怎么就能在这利益各异的人中间建立一个共识。

这真真是大实话。我在OWL 2工作组里短短一年多的经历,觉得最大的收获也确实就是这两点。

最后Culter又说了一句更大的实话:W3C应该应该多想想终端用户的需求。

这句话,我部分赞成。如果要补充,我觉得语义网的工作组里,雪佛龙这样的公司其实已经很多了,我更想看到的,是Apple, Microsoft, Google, Facebook, LinkedIn这样的公司。不过人家不见得愿意来——有在W3C吵架的时间,人家已经买了n家小公司,建立事实上的行业标准了。到那时候,再回W3C补个手续就是。所以我现在看几个工作组的成员名单,总觉得缺点什么,但是又有什么办法呢?

总结:语义网技术本身肯定是有价值的(不然我也不会继续在这个领域)。但是,传统的重视本体,以为语义网应用就是设计好本体的方法,往往不是行得通的方法。雪佛龙提供给我们宝贵的正反两方面经验。


--  作者:xiuleiliu
--  发布时间:12/18/2011 10:22:00 PM

--  
一直留意搂主,不过搂主不搭理我
--  作者:micky
--  发布时间:12/20/2011 1:30:00 PM

--  
对于Chevron(雪佛龙)的经验和教训,BaoJie说的极是。我也深有体会。目前在企业里面要推广和应用,不是从技术出发,而是从实际的业务问题出发,首先考虑业务中有什么样的问题需要解决,然后选择合适的解决方案。根据实际情况,评估选用语义技术的可行性和代价,然后最终确定是否使用语义技术。我们现在不奢求完全使用语义技术,不是技术唯美主义,而求首先解决业务问题。尽量往新技术方向靠,如果实在不行,就只有暂时放弃。总之,业务需求导向是最重要的,语义技术先是锦上添花,然后逐步变得更为必须。
--  作者:admin
--  发布时间:12/25/2011 1:17:00 AM

--  


以下是引用micky在2011-12-20 13:30:00的发言:
对于Chevron(雪佛龙)的经验和教训,BaoJie说的极是。我也深有体会。目前在企业里面要推广和应用,不是从技术出发,而是从实际的业务问题出发,首先考虑业务中有什么样的问题需要解决,然后选择合适的解决方案。根据实际情况,评估选用语义技术的可行性和代价,然后最终确定是否使用语义技术。我们现在不奢求完全使用语义技术,不是技术唯美主义,而求首先解决业务问题。尽量往新技术方向靠,如果实在不行,就只有暂时放弃。总之,业务需求导向是最重要的,语义技术先是锦上添花,然后逐步变得更为必须。


--  作者:baojie
--  发布时间:1/8/2012 4:52:00 AM

--  
http://blog.baojie.org/2012/01/07/garlik/
语义网的公司(9): Garlik
2012/01/07Jie Bao编辑发表评论
今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

“captures and monitors information from web and social networking sites, and then generates an alert when an online loss/disclosure or theft of consumer data is detected”

这件并购其实发生在去年年底,SemanticWeb.com有一篇更详细的文章:Experian Acquires Garlik, Ltd.

Garlik的顾问有Tim Berners-Lee(Web发明人,W3C主席),Nigel Shadbolt(英国计算机学会主席)和Wendy Hall(ACM主席)——这三个人以前是语义网,现在是Web Science主要推手。Garlik现在的CTO是Steve Harris——他以前和Nigel一起在University of Southampton很多年。

Garlik和AKT(Advanced Knowledge Technologies)项目——一个英国主要的语义网项目——很有关系。不意外的,Nigel是AKT的PI之一,而Steve是AKT里面做triple store的。这也算是一个研究产业化成功的一个典型范例了。

关于Garlik如何应用语义网技术(特别是大规模语义数据库triple store)来帮助在线身份管理,可以看下面几个讲话:

ESWC 2008上的介绍(Nigel Shadbolt):Garlik: Semantic Technology for the Consumer (视频)
2010年Semantic Web Meetup上的介绍(Mischa Tuffield): Garlik and Enterprise Semantic Web Technologies
2011年在SemTechBiz UK上的讲话(Steve Harris):Combating Online Crime with RDF。Podcast听这里。
对于我们搞技术的,Garlik主要还是因为它推出的几个开源语义数据库闻名,命名很有意思

3store - 这个是AKT项目的产品。3就是triple吗。
4store - 这个很受人的好评。可以装15G triples,支持RDF推理。注意它底层不是基于别家的关系数据库的。
5store - 进一步提高可扩展性。据说可以支持1T triples,但不支持推理。
从Garlik案例看来,有哪些心得?今天没时间细写,以后有时间再补充,只说几个结论
Garlik本质上是做语义数据集成。集成人的信息当然不简单,比如各种拼写错误等,要做一些自然语言理解。注意:不能指望用户来提供语义数据,而是努力从用户提供的随便什么数据里搞出语义数据来。
为什么要用triple store?如果是静态的数据,用关系数据库也没什么不可以。可是,在线数据的特点就是老是变。你总不能老是去改表结构。语义建模的优势,就在于与时俱进的能力强。
把智能放在数据里而不是代码里。比如它家的DataPatrol,程序的控制很多就是放在RDF里,加个triple,去个triple,功能就变了。这样有利于适应复杂多变的数据
FOAF有应用吗?Garlik就是。
用cluster,可以低价地实现大规模RDF推理。不需要MapReduce, Hadoop啥的——当然,那也是一条路。
总结1:Garlik的成功,展示了语义网在处理动态数据上的优势。以后如果有数据库界的同仁再质疑,可以和他说,你的个人信息,在Experian都是用语义网的技术管理的。

总结2:最近一年大公司买语义网小公司的例子越来越多,过去两个月几乎每个星期都有这样的例子发生。这是1年前都没有的现象,是技术走向成熟的一个标志。中国的语义网市场现在还近乎空白,其实欧美这上百家语义网的小公司(可能更多,我没细数过),很多都很值得抄一抄。


--  作者:wjwenoch
--  发布时间:1/18/2012 12:47:00 AM

--  
+1
有的公司听说过 有的不知道 长见识了 写的好~
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
1,156.250ms