以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  ~(欢迎参加半自动Web本体构建方法的讨论)~  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=11232)


--  作者:傻酷鱼
--  发布时间:10/23/2004 10:13:00 PM

--  ~(欢迎参加半自动Web本体构建方法的讨论)~
Web本体已经从手工构建方法转为半自动的Web本体构建方法的研究阶段.
(1)AIFB等机构提出了用自然语言处理的方法自动提取Web本体和实例.
参看文献"Towards the SelfAnnotating Web"  WWW04
             "Mining Ontologies from Text"  EKAW-2000
             "Engineering ontologies using semantic patterns" IJCAI-01 Workshop on E-Business & the Intelligent Web
            "Representation Language-Neutral Modeling of Ontologies"
(2)从关系数据库中抽取本体
参看文献"Advances in Formal Concept Analysis for Knowledge Discovery in Databases "

当然,我了解的十分有限.
欢迎大家一起来讨论这个话题,把国外的相关文献都找出来.


--  作者:happysw
--  发布时间:10/24/2004 9:30:00 AM

--  
已有的工具可以参考TEXT-TO-ONTO
相关的文献还有learning ontology for the semantic web
semi-automatic engineering of ontologies from text
the text-to-onto ontology learning environment
欢迎继续讨论!
--  作者:happysw
--  发布时间:10/24/2004 9:46:00 AM

--  
以下是引用傻酷鱼在2004-10-23 22:13:03的发言:
(2)从关系数据库中抽取本体
参看文献"Advances in Formal Concept Analysis for Knowledge Discovery in Databases "   


能否提供这篇的原文?谢谢!
--  作者:傻酷鱼
--  发布时间:10/24/2004 4:22:00 PM

--  
请上Gerd Stumme的主页上下载
http://www.aifb.uni-karlsruhe.de/WBS/gst/publications.shtml
--  作者:yangliu
--  发布时间:10/25/2004 10:28:00 AM

--  
好啊好啊,我最近也在研究相关的内容,推荐两篇文章:


这是一篇涵盖范围较广的综述文章


这是一篇涉及到本体的评价的方法的文章

不妨一看


以后有问题多讨论啊!

我想顺便问一下,有没有较为规范的本体可以下载.
以前论坛上贴过,我找不到了,还望各位侠客侠女
能不厌其烦的再贴一次

先谢了!


--  作者:saleemlz
--  发布时间:10/25/2004 3:34:00 PM

--  
国外的文献,都是针对英文版本的Web本体的自动构建;
实际过程中,如果我们要设计中文版本的web本体的自动构建,就比较困难;
因为,英文版本的web本体自动构建过程中,wordnet可以提供java API支持;
而中文版本的web本体自动构建过程中,如果需要"知网"支持的话,我们就得掏钱去买API得使用权...

--  作者:saleemlz
--  发布时间:10/25/2004 3:35:00 PM

--  
还有,Web本体的自动构建,要有web页面的标识,这个过程是自动的,还是人工的呢?
大家有什么好方法没有?

--  作者:saleemlz
--  发布时间:10/25/2004 3:43:00 PM

--  
下面几篇文章也有相似内容:

An automated approach for retrieving hierarchical data from HTML tables.pdf
Toward an Ontology-basedWeb Data Extraction.pdf
Data Mining for Ontology Building.pdf


--  作者:傻酷鱼
--  发布时间:10/25/2004 4:40:00 PM

--  
搞研究我想主要注重新思想和新方法.
我想,我们可以着重讨论一下目前国外的一些新思路,新观点,新方法.
例如:Towards the SelfAnnotating Web
中谈到的用语言模式的方法从网页中抽取实例的方法就很实用.比如:
                       XXX是"动物"
那么XXX不就是动物的一个实例吗?
--  作者:傻酷鱼
--  发布时间:10/26/2004 10:38:00 AM

--  
(3)基于概念聚类的本体构建方法
--  作者:lngxt
--  发布时间:10/26/2004 12:03:00 PM

--  
以下是引用傻酷鱼在2004-10-23 22:13:03的发言:
Web本体已经从手工构建方法转为半自动的Web本体构建方法的研究阶段.
(1)AIFB等机构提出了用自然语言处理的方法自动提取Web本体和实例.
参看文献"Towards the SelfAnnotating Web"  WWW04
              "Mining Ontologies from Text"  EKAW-2000
              "Engineering ontologies using semantic patterns" IJCAI-01 Workshop on E-Business & the Intelligent Web
             "Representation Language-Neutral Modeling of Ontologies"
(2)从关系数据库中抽取本体
参看文献"Advances in Formal Concept Analysis for Knowledge Discovery in Databases "

当然,我了解的十分有限.
欢迎大家一起来讨论这个话题,把国外的相关文献都找出来.


这些文章到哪下载?google找不到


--  作者:傻酷鱼
--  发布时间:10/26/2004 9:45:00 PM

--  
介绍几个常用的国外数据库:
(1) IEEE/IEE电子期刊数据库
(2)ACM全文数据库
(3)Springer全文期刊数据库
(4)ELSEVIER全文期刊数据库
一般欧洲的会议论文集会很快收录到Springer数据库中.
还有一些论文会在会议主页上有链接.
如果不行,上作者的个人主页上下载.

--  作者:saleemlz
--  发布时间:10/27/2004 12:15:00 PM

--  
赞成傻酷鱼说的Towards the SelfAnnotating Web
中用语言模式的方法从网页中抽取实例的方法很实用,这的确是一个好方法。
但是,这些语言模式,我们做多少呢?Towards the SelfAnnotating Web列举了10种,且都是针对英文的。如果针对中文,会有多少呢?
曾经看到说用正则表达式来描述中文自然语言的句子,但是结果并不是很乐观。

但是,用语言模式抽取本体的实例,来扩展本体,应该说是一个比较好的自动构建本体的方法


--  作者:saleemlz
--  发布时间:10/27/2004 12:19:00 PM

--  
而且,我觉得,Towards the SelfAnnotating Web也有自身的一个弱点,那就是对于抽取小本体的实例可能实用,一旦本体中的概念数目多了,计算起来可能会要花很多时间。
因为它要求计算:count :I×C×P
--  作者:saleemlz
--  发布时间:10/27/2004 12:22:00 PM

--  
傻酷鱼,有一点,我没看明白,请教:

该篇文章标题是:Towards the SelfAnnotating Web
我的理解就是,对Web页面进行自动标识,就是要对该页面中的各个实例(或者概念)进行URL标识。

该文看后,我觉得好像就只是对web页面中的名词进行概念实例的匹配,你觉得是不?


--  作者:saleemlz
--  发布时间:10/27/2004 12:26:00 PM

--  
不过,该文通过用GoogleTM的Web sevice API进行实例与概念的匹配,这个方法真的很新奇,很有特色。
我觉得,我们研究本体的半自动构建,关键的问题有:Web页面中抽取出来的概念或实例与本体中概念相似度计算的问题。
如果要做到解决中文自然语言处理的话,可能难度还大些。

这是我的一些想法,请大家指教。谢谢!


--  作者:傻酷鱼
--  发布时间:10/27/2004 4:59:00 PM

--  
同意楼上的观点. 但是要求一篇文章解决所有的问题似乎太不现实.
      找到实例对应的概念,其实就是找到了该实例的内在明确的形式语义.这就是SW 的目标.
      这个实例匹配学习过程可以限定在一个小的本体子领域中进行,或对领域进行划分,分别进行学习.整个过程可以进行事先的预处理.
      如果实例所在的语句与模式匹配的话,还需要度量两者的相似度吗?主要的问题是模式的选择和例外.当然中文语言更加丰富多彩,可能会给这个过程带来一定的麻烦.

     很好的观点.欢迎讨论!


--  作者:saleemlz
--  发布时间:10/28/2004 9:53:00 PM

--  
阿酷哥,
请问,如何判断实例所在的语句与模式匹配呢,这个阈值要达到多少呢?或者说,我们怎么限定这个阈值呢?

Towards the SelfAnnotating Web
讨论的是Web页面中文本的实例与本体的概念的匹配。

我们是不是讨论一下Web页面中的table中的实例与本体中概念的匹配,或许我们可以合作交流,你认为呢?


--  作者:lsxredrain
--  发布时间:10/31/2004 10:18:00 PM

--  
以下是引用saleemlz在2004-10-25 15:34:25的发言:
国外的文献,都是针对英文版本的Web本体的自动构建;
实际过程中,如果我们要设计中文版本的web本体的自动构建,就比较困难;
因为,英文版本的web本体自动构建过程中,wordnet可以提供java API支持;
而中文版本的web本体自动构建过程中,如果需要"知网"支持的话,我们就得掏钱去买API得使用权...


有理阿 ,要使得英文版的支持汉语也是一个很大的问题,另外中文版的开源工程似乎太少了,要是我那天发达了,一定投资中国的开源事业 。


--  作者:zwagz
--  发布时间:1/17/2006 4:04:00 PM

--  
好象国外讨论的比较多,国内的相关综述在计算机科学上可能会有咶。
--  作者:iamwym
--  发布时间:1/17/2006 8:58:00 PM

--  
以下是引用lsxredrain在2004-10-31 22:18:00的发言:
[quote]以下是引用saleemlz在2004-10-25 15:34:25的发言:
国外的文献,都是针对英文版本的Web本体的自动构建;
  实际过程中,如果我们要设计中文版本的web本体的自动构建,就比较困难;
  因为,英文版本的web本体自动构建过程中,wordnet可以提供java API支持;
  而中文版本的web本体自动构建过程中,如果需要"知网"支持的话,我们就得掏钱去买API得使用权...
  
[/quote]

有理阿 ,要使得英文版的支持汉语也是一个很大的问题,另外中文版的开源工程似乎太少了,要是我那天发达了,一定投资中国的开源事业 。



开源的事情,不是你投个几十亿能够解决的。根本在于一种精神。比如国内的研究机构做出来的东西,第一个想到的就是拿去赚钱,申请专利,其实赚不了多少的,能够有个专利转让,已经很少见了。国外研究资金来自于public fund,所以自然成果就上sourceforge,认为是理所当然的。
--  作者:iamwym
--  发布时间:1/17/2006 9:01:00 PM

--  
另外,gerd现在已经不在aifb了,现在这里做这块的是philipp和johanna,philipp比较牛的,你们有问题给他email好了。
pci@aifb
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
109.375ms