计算机科学论坛--显示贴子

以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  ~(欢迎参加半自动Web本体构建方法的讨论)~  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=11232)

--  作者：傻酷鱼
--  发布时间：10/23/2004 10:13:00 PM

--  ~(欢迎参加半自动Web本体构建方法的讨论)~
Web本体已经从手工构建方法转为半自动的Web本体构建方法的研究阶段.
(1)AIFB等机构提出了用自然语言处理的方法自动提取Web本体和实例.
参看文献"Towards the SelfAnnotating Web"  WWW04
             "Mining Ontologies from Text"  EKAW-2000
             "Engineering ontologies using semantic patterns" IJCAI-01 Workshop on E-Business & the Intelligent Web
            "Representation Language-Neutral Modeling of Ontologies"
(2)从关系数据库中抽取本体
参看文献"Advances in Formal Concept Analysis for Knowledge Discovery in Databases "

当然,我了解的十分有限.
欢迎大家一起来讨论这个话题,把国外的相关文献都找出来.

--  作者：happysw
--  发布时间：10/24/2004 9:30:00 AM

--
已有的工具可以参考TEXT-TO-ONTO
相关的文献还有learning ontology for the semantic web
semi-automatic engineering of ontologies from text
the text-to-onto ontology learning environment
欢迎继续讨论！

--  作者：happysw
--  发布时间：10/24/2004 9:46:00 AM

--

以下是引用傻酷鱼在2004-10-23 22:13:03的发言：
(2)从关系数据库中抽取本体
参看文献"Advances in Formal Concept Analysis for Knowledge Discovery in Databases "

能否提供这篇的原文？谢谢!

--  作者：傻酷鱼
--  发布时间：10/24/2004 4:22:00 PM

--
请上Gerd Stumme的主页上下载
http://www.aifb.uni-karlsruhe.de/WBS/gst/publications.shtml

--  作者：yangliu
--  发布时间：10/25/2004 10:28:00 AM

--
好啊好啊，我最近也在研究相关的内容，推荐两篇文章：

这是一篇涵盖范围较广的综述文章

这是一篇涉及到本体的评价的方法的文章

不妨一看

以后有问题多讨论啊!

我想顺便问一下,有没有较为规范的本体可以下载.
以前论坛上贴过,我找不到了,还望各位侠客侠女
能不厌其烦的再贴一次

先谢了!

--  作者：saleemlz
--  发布时间：10/25/2004 3:34:00 PM

--
国外的文献,都是针对英文版本的Web本体的自动构建;
实际过程中,如果我们要设计中文版本的web本体的自动构建,就比较困难;
因为,英文版本的web本体自动构建过程中,wordnet可以提供java API支持;
而中文版本的web本体自动构建过程中,如果需要"知网"支持的话,我们就得掏钱去买API得使用权...

--  作者：saleemlz
--  发布时间：10/25/2004 3:35:00 PM

--
还有,Web本体的自动构建,要有web页面的标识,这个过程是自动的,还是人工的呢?
大家有什么好方法没有?

--  作者：saleemlz
--  发布时间：10/25/2004 3:43:00 PM

--
下面几篇文章也有相似内容:

An automated approach for retrieving hierarchical data from HTML tables.pdf
Toward an Ontology-basedWeb Data Extraction.pdf
Data Mining for Ontology Building.pdf

--  作者：傻酷鱼
--  发布时间：10/25/2004 4:40:00 PM

--
搞研究我想主要注重新思想和新方法.
我想,我们可以着重讨论一下目前国外的一些新思路,新观点,新方法.
例如:Towards the SelfAnnotating Web
中谈到的用语言模式的方法从网页中抽取实例的方法就很实用.比如:
                       XXX是"动物"
那么XXX不就是动物的一个实例吗?

--  作者：傻酷鱼
--  发布时间：10/26/2004 10:38:00 AM

--
(3)基于概念聚类的本体构建方法

--  作者：lngxt
--  发布时间：10/26/2004 12:03:00 PM

--

以下是引用傻酷鱼在2004-10-23 22:13:03的发言：
Web本体已经从手工构建方法转为半自动的Web本体构建方法的研究阶段.
(1)AIFB等机构提出了用自然语言处理的方法自动提取Web本体和实例.
参看文献"Towards the SelfAnnotating Web"  WWW04
              "Mining Ontologies from Text"  EKAW-2000
              "Engineering ontologies using semantic patterns" IJCAI-01 Workshop on E-Business & the Intelligent Web
             "Representation Language-Neutral Modeling of Ontologies"
(2)从关系数据库中抽取本体
参看文献"Advances in Formal Concept Analysis for Knowledge Discovery in Databases "

当然,我了解的十分有限.
欢迎大家一起来讨论这个话题,把国外的相关文献都找出来.

这些文章到哪下载？google找不到

--  作者：傻酷鱼
--  发布时间：10/26/2004 9:45:00 PM

--
介绍几个常用的国外数据库:
(1) IEEE/IEE电子期刊数据库
(2)ACM全文数据库
(3)Springer全文期刊数据库
(4)ELSEVIER全文期刊数据库
一般欧洲的会议论文集会很快收录到Springer数据库中.
还有一些论文会在会议主页上有链接.
如果不行,上作者的个人主页上下载.

--  作者：saleemlz
--  发布时间：10/27/2004 12:15:00 PM

--
赞成傻酷鱼说的Towards the SelfAnnotating Web
中用语言模式的方法从网页中抽取实例的方法很实用，这的确是一个好方法。
但是，这些语言模式，我们做多少呢？Towards the SelfAnnotating Web列举了10种，且都是针对英文的。如果针对中文，会有多少呢？
曾经看到说用正则表达式来描述中文自然语言的句子，但是结果并不是很乐观。

但是，用语言模式抽取本体的实例，来扩展本体，应该说是一个比较好的自动构建本体的方法

--  作者：saleemlz
--  发布时间：10/27/2004 12:19:00 PM

--
而且，我觉得，Towards the SelfAnnotating Web也有自身的一个弱点，那就是对于抽取小本体的实例可能实用，一旦本体中的概念数目多了，计算起来可能会要花很多时间。
因为它要求计算:count :I×C×P

--  作者：saleemlz
--  发布时间：10/27/2004 12:22:00 PM

--
傻酷鱼，有一点，我没看明白，请教：

该篇文章标题是：Towards the SelfAnnotating Web
我的理解就是，对Web页面进行自动标识，就是要对该页面中的各个实例（或者概念）进行URL标识。

该文看后，我觉得好像就只是对web页面中的名词进行概念实例的匹配，你觉得是不？

--  作者：saleemlz
--  发布时间：10/27/2004 12:26:00 PM

--
不过，该文通过用GoogleTM的Web sevice API进行实例与概念的匹配，这个方法真的很新奇，很有特色。
我觉得，我们研究本体的半自动构建，关键的问题有：Web页面中抽取出来的概念或实例与本体中概念相似度计算的问题。
如果要做到解决中文自然语言处理的话，可能难度还大些。

这是我的一些想法，请大家指教。谢谢！

--  作者：傻酷鱼
--  发布时间：10/27/2004 4:59:00 PM

--
同意楼上的观点. 但是要求一篇文章解决所有的问题似乎太不现实.
      找到实例对应的概念,其实就是找到了该实例的内在明确的形式语义.这就是SW 的目标.
      这个实例匹配学习过程可以限定在一个小的本体子领域中进行,或对领域进行划分,分别进行学习.整个过程可以进行事先的预处理.
      如果实例所在的语句与模式匹配的话,还需要度量两者的相似度吗?主要的问题是模式的选择和例外.当然中文语言更加丰富多彩,可能会给这个过程带来一定的麻烦.

很好的观点.欢迎讨论!

--  作者：saleemlz
--  发布时间：10/28/2004 9:53:00 PM

--
阿酷哥，
请问，如何判断实例所在的语句与模式匹配呢，这个阈值要达到多少呢？或者说，我们怎么限定这个阈值呢？

Towards the SelfAnnotating Web
讨论的是Web页面中文本的实例与本体的概念的匹配。

我们是不是讨论一下Web页面中的table中的实例与本体中概念的匹配，或许我们可以合作交流，你认为呢？

--  作者：lsxredrain
--  发布时间：10/31/2004 10:18:00 PM

--

以下是引用saleemlz在2004-10-25 15:34:25的发言：
国外的文献,都是针对英文版本的Web本体的自动构建;
实际过程中,如果我们要设计中文版本的web本体的自动构建,就比较困难;
因为,英文版本的web本体自动构建过程中,wordnet可以提供java API支持;
而中文版本的web本体自动构建过程中,如果需要"知网"支持的话,我们就得掏钱去买API得使用权...

有理阿，要使得英文版的支持汉语也是一个很大的问题，另外中文版的开源工程似乎太少了，要是我那天发达了，一定投资中国的开源事业。

--  作者：zwagz
--  发布时间：1/17/2006 4:04:00 PM

--
好象国外讨论的比较多，国内的相关综述在计算机科学上可能会有咶。

--  作者：iamwym
--  发布时间：1/17/2006 8:58:00 PM

--

以下是引用lsxredrain在2004-10-31 22:18:00的发言：
[quote]以下是引用saleemlz在2004-10-25 15:34:25的发言：
国外的文献,都是针对英文版本的Web本体的自动构建;
  实际过程中,如果我们要设计中文版本的web本体的自动构建,就比较困难;
  因为,英文版本的web本体自动构建过程中,wordnet可以提供java API支持;
  而中文版本的web本体自动构建过程中,如果需要"知网"支持的话,我们就得掏钱去买API得使用权...

[/quote]

有理阿，要使得英文版的支持汉语也是一个很大的问题，另外中文版的开源工程似乎太少了，要是我那天发达了，一定投资中国的开源事业。

开源的事情，不是你投个几十亿能够解决的。根本在于一种精神。比如国内的研究机构做出来的东西，第一个想到的就是拿去赚钱，申请专利，其实赚不了多少的，能够有个专利转让，已经很少见了。国外研究资金来自于public fund，所以自然成果就上sourceforge，认为是理所当然的。

--  作者：iamwym
--  发布时间：1/17/2006 9:01:00 PM

--
另外，gerd现在已经不在aifb了，现在这里做这块的是philipp和johanna，philipp比较牛的，你们有问题给他email好了。
pci@aifb

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

109.375ms