以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  [求助]难以理解的WordNet  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=69248)


--  作者:Humphrey
--  发布时间:11/7/2008 5:08:00 PM

--  [求助]难以理解的WordNet
WordNet大名鼎鼎,诸位想必都不陌生。我刚刚接触这种特殊的词典,发现原来它竟然有多种文件格式供选用,这一点着实让我高兴了一把。在读了《Thinking XML: 查询 XML 格式的 WordNet》http://bbs.w3china.org/dispbbs.asp?boardID=25&ID=15011之后,问题也随之而来,那就是从实际使用的角度(或者说进行语义推理的角度)考虑,哪种文件格式的Wordnet更适合、效率更高呢?请诸位前辈多多指教,谢谢!
--  作者:iamwym
--  发布时间:11/9/2008 3:00:00 PM

--  
和文件格式无关,wordnet是作为词库存在,和输入输出的文件格式有什么关系?文件格式和性能是无关的,当数据比较大的时候,主要的计算的任务肯定不是文件的输入输出,这一点完全可以忽略。你手里有什么格式就用什么格式好了。

打个比方,一篇文章是txt格式,另外一篇是doc格式,还有一个pdf格式,都只有同样内容的文本,所以你喜欢看哪个都完全随你。

p.s. wordnet可不是什么特殊的词典


--  作者:Humphrey
--  发布时间:11/9/2008 3:34:00 PM

--  
原来是这样!感谢王大哥的热心解答。我原以为这种文件格式较多的工具在使用时会受到文件描述方式的制约呢!既然如此,我也就放心了。
我之所以说它特殊,是因为它的编撰方式和普通词典不同,是按同义词集编排而非字母表顺序,呵呵!
--  作者:Humphrey
--  发布时间:11/10/2008 5:17:00 PM

--  
我对比了能查到的所有WordNet的RDF版本,果然有不少。包括WordNet工作组的《WordNet2.0 in RDF/OWL》;史帝夫•瑞德(Steve Reed)基于WordNet2.1转换的Texai;由谢尔盖•梅尔尼克(Sergey Melnik)和斯蒂芬•德克尔 ( Stefan Decker)开发了WordNet的RDF表示和本体定义术语版;普林斯顿大学也在WordNet工作组的版本基础上提出了自己的WordNet RDF。
可是谢尔盖•梅尔尼克(Sergey Melnik)和斯蒂芬•德克尔 ( Stefan Decker)没有找到下载链接;除此之外,其他版本结构大相径庭,WordNet工作组版只有3个文件,但是最大的有90M!普林斯顿大学版都是些细小的文件,最大不过二十几兆;Texai也有多个文件。
我越来越闹不清它们对WordNet的拆分原则是什么,用于推理(比如采用Jena作为推理机)哪个更适合?(或者说更常用?)各位先行者对诸多WordNet的RDF版本有何看法,欢迎莅临指导,小可不胜感激。
--  作者:Humphrey
--  发布时间:11/14/2008 10:23:00 AM

--  
WordNet的各种RDF版本中,有的分的文件很多,每个都很小。或许这样的文件布局方式能够加速推理吧。如果使用较大的RDF文件时采用什么样的推理方法更好呢?难道需要自行拆分之后再使用吗?大家有什么好方法或建议呢,小可洗耳恭听。
--  作者:loveunk
--  发布时间:11/14/2008 8:13:00 PM

--  
同关注,我也是需要wordnet和jena一起使用

以下是引用Humphrey在2008-11-10 17:17:00的发言:
我对比了能查到的所有WordNet的RDF版本,果然有不少。包括WordNet工作组的《WordNet2.0 in RDF/OWL》;史帝夫•瑞德(Steve Reed)基于WordNet2.1转换的Texai;由谢尔盖•梅尔尼克(Sergey Melnik)和斯蒂芬•德克尔 ( Stefan Decker)开发了WordNet的RDF表示和本体定义术语版;普林斯顿大学也在WordNet工作组的版本基础上提出了自己的WordNet RDF。
可是谢尔盖•梅尔尼克(Sergey Melnik)和斯蒂芬•德克尔 ( Stefan Decker)没有找到下载链接;除此之外,其他版本结构大相径庭,WordNet工作组版只有3个文件,但是最大的有90M!普林斯顿大学版都是些细小的文件,最大不过二十几兆;Texai也有多个文件。
我越来越闹不清它们对WordNet的拆分原则是什么,用于推理(比如采用Jena作为推理机)哪个更适合?(或者说更常用?)各位先行者对诸多WordNet的RDF版本有何看法,欢迎莅临指导,小可不胜感激。


--  作者:Humphrey
--  发布时间:11/16/2008 4:05:00 PM

--  
似乎现在用WordNet作知识库的同志很少,也有可能真的随便选一个用就行。总之到目前为止,这个问题还是没有人理会。
不过我始终这么想:既然不同的机构将WordNet拆分成不同的形式肯定有其用意,否则直接用就是了。一定是针对了某种问题或对某种情况有利,但是现在我仍然无法确定。相关内容过多(还有找不到的),逐个看下来时间不允许啊!
--  作者:beyondlei
--  发布时间:11/17/2008 3:02:00 AM

--  
以下是引用iamwym在2008-11-9 15:00:00的发言:
和文件格式无关,wordnet是作为词库存在,和输入输出的文件格式有什么关系?文件格式和性能是无关的,当数据比较大的时候,主要的计算的任务肯定不是文件的输入输出,这一点完全可以忽略。你手里有什么格式就用什么格式好了。

打个比方,一篇文章是txt格式,另外一篇是doc格式,还有一个pdf格式,都只有同样内容的文本,所以你喜欢看哪个都完全随你。

p.s. wordnet可不是什么特殊的词典


同意版主的说法, 文件格式和性能应该是无关的,用哪种格式完全是个人选择,当然可能和你使用的编程接口也有一定的关系,以前我用过lucene index形式的wordnet,这样可以直接通过lucene API访问,网上有个把一般格式的wordnet转换成lucene index小程序,网址忘了,好像wordnet网站上有链接。


--  作者:Humphrey
--  发布时间:11/17/2008 9:29:00 AM

--  
原来是这样,就是说如果想先用Jena进行推理就选择一个RDF格式的WordNet就行了?
我头一次接触这些工具,所以提出的问题似乎傻了一些。之所以有此问是因为我想把推理机对WordNet的推理结果用于组织其它材料,例如文本或索引一类的东西。
另:如楼上所言,在Lucene中直接调用WordNet是实现一定的智能检索功能吗?如果确实如此,是否可以把推理机省略而直接用Lucene实现了呢?


--  作者:beyondlei
--  发布时间:11/17/2008 3:53:00 PM

--  
我用的时候主要就是用它找近义词,比如 person 可以找到 individual, someone, somebody, mortal, soul。
--  作者:Humphrey
--  发布时间:11/18/2008 8:18:00 AM

--  
就是说其实不用推理引擎,只用Lucene自带的接口也能实现查询的同义词替换功能?
果真如此,推理引擎的作用岂不是十分有限了吗?
--  作者:Humphrey
--  发布时间:11/19/2008 11:35:00 AM

--  
我尝试着按照beyondlei同志的意思查了一些材料,发现似乎Lucene没有提供和Jena连接的接口!由于水平所限,我不知道这个结论是否正确,但是如果事实的确如此,想在Lucene中使用Jena进行推理就有麻烦了。
--  作者:iamwym
--  发布时间:11/19/2008 12:44:00 PM

--  
lucene为什么要提供jena的接口?这个不是你要做的事情么?

且你要做这个事情,很多人都做过了


--  作者:Humphrey
--  发布时间:11/19/2008 5:33:00 PM

--  
楼上所言不差,我刚接触JAVA编程,对编制接口的工序都还不十分清楚,不敢妄谈自制。
LARQ是和Lucene结合的,可以对文本搜索。不过如果把搜索范围扩大到网络恐怕光靠这个就不行了,似乎要把网站之类的网络文档都转化成纯文本。就是要加一个爬虫了?
不好意思,我现在刚刚起步,看了一点东西,但是还是很糊涂的。如果大侠对这方面了解,不妨透露一些,小可愿洗耳恭听。谢谢!
--  作者:Humphrey
--  发布时间:11/19/2008 5:48:00 PM

--  
我十分羡慕论坛中的一些同志,你们有领域内的名师指点。接受每一项技术都能从一而终,毫不间断。而我,在我的学习生涯中被迫多次更改所学方向,身边没有人帮助,只能全靠自己。
我和大家还有很大差距,这一点我心知肚明。任务紧迫,所以我有时候似乎有些急功近利了。拿一些初级问题来烦诸位,小可实在抱歉。如果对我的问题的答案有所了解,欢迎诸位指导。问得糟糕,也欢迎大家拍砖。只希望大家能够理解这个在求知路上磕磕绊绊的人的真诚的心。
--  作者:admin
--  发布时间:11/20/2008 12:35:00 AM

--  
以下是引用Humphrey在2008-11-19 17:48:00的发言:
我十分羡慕论坛中的一些同志,你们有领域内的名师指点。接受每一项技术都能从一而终,毫不间断。而我,在我的学习生涯中被迫多次更改所学方向,身边没有人帮助,只能全靠自己。
我和大家还有很大差距,这一点我心知肚明。任务紧迫,所以我有时候似乎有些急功近利了。拿一些初级问题来烦诸位,小可实在抱歉。如果对我的问题的答案有所了解,欢迎诸位指导。问得糟糕,也欢迎大家拍砖。只希望大家能够理解这个在求知路上磕磕绊绊的人的真诚的心。

只要有问题,欢迎提问!是不是简单问题,只有在得到答案之后才知道。说不定你问的“简单”问题里就蕴含了大道理。

大家都知道急功近利不好,但谁都有任务紧迫的时候,这种情况下,就是大家发扬互助精神的时候了。不过,紧急任务应付过后,多多独立思考,别有依赖心理就好 :-)


--  作者:wjwenoch
--  发布时间:11/20/2008 6:09:00 AM

--  
以下是引用Humphrey在2008-11-19 17:48:00的发言:
我十分羡慕论坛中的一些同志,你们有领域内的名师指点。接受每一项技术都能从一而终,毫不间断。而我,在我的学习生涯中被迫多次更改所学方向,身边没有人帮助,只能全靠自己。
我和大家还有很大差距,这一点我心知肚明。任务紧迫,所以我有时候似乎有些急功近利了。拿一些初级问题来烦诸位,小可实在抱歉。如果对我的问题的答案有所了解,欢迎诸位指导。问得糟糕,也欢迎大家拍砖。只希望大家能够理解这个在求知路上磕磕绊绊的人的真诚的心。


跟名师不名师有什么关系,最后都是靠自己。有问题就问了,总会有人回答的啊。急功近利,是个人都会这样,呵呵。
--  作者:Humphrey
--  发布时间:11/20/2008 8:34:00 AM

--  
感谢楼上二位的宽慰,我一定不会放弃对语义网技术的学习。同时也感谢二位的鼓励!
这段时间,我又进一步了解了有关WordNet的RDF版本的一些情况。发现一个有趣的事情:一直以来我似乎都在追求“本体库的持久化”,把RDF塞进数据库。但是现在通过了解一些工具(如Lucene等)对RDF的操作,我感觉讨论区中一部分先行者所言也很有道理。RDF文档不一定绝对要存入数据库的。
仍然以WordNet为例,W3C推荐的版本总共只包括3个RDF文件,而Lucene默认针对数据库以外的文本进行检索(不考虑第三方功能扩展),而据测试其索引检索与关系数据库检索相比效率更高。如此一来,如果仅仅为了使Lucene能够使用WordnetRDF而对其进行持久化似乎已不太必要。
不知道我的理解是否正确,如果各位对本体持久化有什么建议欢迎交流!
--  作者:micropuss
--  发布时间:11/20/2008 9:08:00 AM

--  
以下是引用Humphrey在2008-11-19 17:48:00的发言:
我十分羡慕论坛中的一些同志,你们有领域内的名师指点。接受每一项技术都能从一而终,毫不间断。而我,在我的学习生涯中被迫多次更改所学方向,身边没有人帮助,只能全靠自己。
我和大家还有很大差距,这一点我心知肚明。任务紧迫,所以我有时候似乎有些急功近利了。拿一些初级问题来烦诸位,小可实在抱歉。如果对我的问题的答案有所了解,欢迎诸位指导。问得糟糕,也欢迎大家拍砖。只希望大家能够理解这个在求知路上磕磕绊绊的人的真诚的心。

我也没有人指点,一年之间换了4个研究点,搞过4个月左右的本体方面研究,现在重新回归Database领域,大家的感受都一样,你说那些人真是少之又少,在国外是这样,在国内几乎不可能。没听说大名鼎鼎的Koller把学生搞成什么样子了,唉。都一样呀。

前段时间跟一个文科博士聊天,他说他们文科的学问是累积式的,而我们工科是阶段式的,也就是说我们工科方面的老板只是在人生的某个阶段很牛,后来。。。呵呵,可能不敢恭维了,不过至少人家牛过一段,我们还未牛过呢。


--  作者:Humphrey
--  发布时间:11/22/2008 3:53:00 PM

--  
问同志们一个很菜的问题:我下载了W3C的WordNet RDF,据说使用文本编辑器就可以打开它。但是单个文件太大了,有90多兆。有更好的察看工具供选择吗?


--  作者:beyondlei
--  发布时间:11/22/2008 10:17:00 PM

--  
给你个小程序可以读出前n行来看一看:

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.io.PrintWriter;

public class RDFSampler {

 /**
  * @param args
  */
 public static void main(String[] args) throws Exception {
  String source = "D://wordnet.rdf";
  String target = "D://wordnet_sample.rdf";
  RDFSampler sampler = new RDFSampler(source, target, 1000);
  sampler.init();
  sampler.run();
  sampler.close();
 }
 
 private int lineCount = 10000;
 
 private String sourceFile;
 private String targetFile;
 private BufferedReader br;
 private PrintWriter pw;
 
 public RDFSampler(String sourceFile, String targetFile) {
  this.sourceFile = sourceFile;
  this.targetFile = targetFile;
 }
 
 public RDFSampler(String sourceFile, String targetFile, int count) {
  this.sourceFile = sourceFile;
  this.targetFile = targetFile;
  this.lineCount = count;
 }
 
 public void init() throws Exception {
  br = new BufferedReader(new InputStreamReader(new FileInputStream(sourceFile)));
  pw = new PrintWriter(new FileWriter(targetFile));
 }

 public String readLine() throws Exception {
  return br.readLine();
 }
 
 public void writeLine(String line) {
  pw.println(line);
 }
 
 public void run() throws Exception {
  int count = 0;
  for (String line = br.readLine(); line != null && count < lineCount; line = br.readLine()) {
   count++;
   pw.println(line);
   System.out.println(line);
  }
 }
 
 public void close() throws Exception {
  br.close();
  pw.close();
 }

}


--  作者:Humphrey
--  发布时间:11/23/2008 9:28:00 AM

--  
beyondlei同志果然厉害,我查了半天也找不到适合的工具。而且用记事本打开有一个弊病。就是如果RDFS或RDF文档中采用换行符等特殊符号作为行结束标记的话,记事本打开之后会因窜行而变得不易阅读。十分感谢!
--  作者:Humphrey
--  发布时间:11/23/2008 3:04:00 PM

--  
我改变了搜索方法,终于找到一款似乎不错的RDF编辑器Triple20,地址是http://www.swi-prolog.org/packages/Triple20/
我们这儿下午网速慢,抓不下来,只能明天再尝试了。这款工具最近仍在不断更新,似乎很不错。只是对安装使用方法介绍较少,如果哪位同志用过这个工具能否指教一二?
因为不知使用效果如何,不敢随意推荐,但是大家有时间的话,不妨尝试一下。
--  作者:Humphrey
--  发布时间:12/1/2008 4:08:00 PM

--  
考虑到使用RDF格式的WordNet,所以有必要对RDF文档相关知识有所了解。在讨论区里四处察访了一下发现以下几个话题比较有意义:
[原创] RDF 简介 1 http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=12191
一个关于RDF的简单问题(关于rdf:ID,rdf:about,rdf:resource的用法)http://bbs.w3china.org/dispbbs.asp?BoardID=2&id=11536&replyID=28071&star=1&skin=0
[转帖]有效地使用 RDF/XML 中的 rdf:about 和 rdf:ID http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=10056
RDF入门 推荐标准http://wiki.w3china.org/wiki/index.php/RDF%E5%85%A5%E9%97%A8_%E6%8E%A8%E8%8D%90%E6%A0%87%E5%87%86
使用 Jena API 处理 RDF http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=6475
这些话题和推荐话题一起看应该能够解决不少问题。
--  作者:Humphrey
--  发布时间:12/3/2008 4:53:00 PM

--  
最近阅读了WordNet的相关内容,但是一个基本问题都没能解决,实在令人汗颜。
WordNet分为3个大类:同义词集、词汇和WordSence。
不过WordSence是什么我却说不清,难道是词性?但是我查了词典,却找不到这个词,也就无从描述。哪位同志对WordNet比较熟悉,请您多指教。
--  作者:Leon.Essence
--  发布时间:12/3/2008 5:25:00 PM

--  
wordsense应该是词义,由于很多词可能有很多的意思,比如说mouse可以表示老鼠,也可以表示鼠标,在wordnet里面,最基本的单元是词义,同义等等关系都是根据词义组织起来的。

wordnet的结构应该是这样的,首先先定义一些词义,然后这些词义之间申明了一些关系,最常用的有同义、上下位关系等。


--  作者:Humphrey
--  发布时间:12/5/2008 10:42:00 AM

--  
感谢前辈Leon.Essence的精彩解答,我继续看了一段文档,确实只有这个解释能够适合所有语境。您对WordNet真的太熟悉了!
在看到词网的数据模型(datamodel)时,又跑出来一个特殊形容词类型,叫做什么“形容词卫星(adjective satellite)”?这个“形容词卫星”是何方神圣,起到什么作用呢?
词网在定义各种联系时也使用了不少生涩词汇,比如member meronymy、substance meronymy和part meronymy,这个meronymy也查不到中文释义,我感觉似乎是“语义”的意思,也不能确定。
以上问题,请各位前辈多多指教,谢谢!



--  作者:Leon.Essence
--  发布时间:12/5/2008 2:41:00 PM

--  
你不用这么客气,我们年龄相近,我也只是以前用过而已,

对于你后面的第一个问题,adjective satellite,有可能是修饰形容词的形容词,就像卫星城一样,即围绕在adjective附近的词,是否正确,你最好把相关的信息发上来,这样大家才能做出更好的判断,你看的那个词网,是指WordNet吗?

第二个问题,meronymy就是部分和整体的关系,the semantic relation that holds between a part and the whole
http://wordnet.princeton.edu/perl/webwn?s=meronymy


--  作者:Humphrey
--  发布时间:12/5/2008 4:57:00 PM

--  
是的,我所说的词网确实就是WordNet,因为通过搜索引擎得到的中文资源里有不少都这么称呼WordNet,所以我也入乡随俗了。而且考虑到WordNet的特征,似乎也没有什么不妥。不知业内是否习惯这样称呼WordNet。
我所看到的有关“adjective satellite”的原句如下:
There are four disjoint kinds of synset, containing either nouns, verbs, adjectives or adverbs. There is one more specific kind of adjective called an adjective satellite.
摘自http://www.w3.org/2001/sw/BestPractices/WNET/wn-conversion.html#rdfowlschema
另外,把meronymy作为整体与部分关系理解,member meronymy、substance meronymy和part meronymy这几个词组也不容易说清楚。我所看到的有关这三个词组的原话如下:
WordNet defines seventeen relations, of which ten between synsets (hyponymy, entailment, similarity, member meronymy, substance meronymy, part meronymy, classification, cause, verb grouping, attribute)
其实是紧接着上面例举的那一句的,当然出处也一样。感谢您为我的问题费心,谢谢您!
--  作者:Leon.Essence
--  发布时间:12/5/2008 10:26:00 PM

--  
真的不用这么客气,大家相互学习

我也是一两年前用过WordNet,很多东西也不是很懂,感觉它也在不停的发展

adjective satellite大概的意思应该是,对中心形容词修饰后形成的形容词
Adjective satellites imposes additional commitments on top of the meaning of the central adjective, e.g. "arid" = "dry" + a particular context (i.e. climates)
http://www.vocaboly.com/forums/ftopic5740.html上有详细的讨论

member meronymy, substance meronymy, part meronymy应该是三种不同的整体和部分的关系
比如说:    
"Tom" is a member meronym of "teacher."
"Blue" is a substance meronym of "color."
"Mouse" is a part meronym of "computer."

不知道举的例子合不合适:)


--  作者:Humphrey
--  发布时间:12/8/2008 5:25:00 PM

--  
感谢Leon.Essence同志的回复,让我明白了好几个生涩概念。随着说明文档逐渐进入细节部分,也出现了越来越多难于说清的东西。
今天在有关WordNet版本的叙述中发现这样一句话: To keep the footprint small for such applications we provide a WordNet Basic version. This version consists of the synset file of the WordNet Full, an additional data file and a separate schema file. This last file contains one additional property called senseLabel (domain Synset and range xsd:string).
问题出在括号里的内容:domain我们一般称作“域”而range是“范围”。但是这么说似乎不通,还是不能明白它的真实含义。
接下来的概念同样也是不易接受,文中提到“WordSense and containsWordSense”,WordSense应作词义理解,containsWordSense是包含词义?词义就是词义了,怎么突然出现“包含”一说?难道有质的区别吗,实在是不知所云。因此只好继续请教了,谢谢。


--  作者:Humphrey
--  发布时间:12/11/2008 4:47:00 PM

--  
我把由W3C提供的WordNet RDF/OWL 完整版下载了下来,当我打开压缩包时发现事实上内部文件都是rdfs和rdf格式。虽然我基本上看完了关于这种WordNet版本的说明文件,但是心里还是有些疑惑。
看文件名,这20个文件是分别按照特定的词汇关系组织起来的。那么它们也像数据库中的数据表一样可以人为地建立关联吗?或者这些文件是各自独立的,没有也不可能建立任何文件间关联?
另外,压缩报里没有OWL文件,是不是意味着RDF文件格式可以用OWL语言进行查询操作,或者只能用SPARQL?
刚刚接触,懵懵懂懂,冒昧地向各位前辈请教,您别笑话。
--  作者:Humphrey
--  发布时间:1/13/2009 3:39:00 PM

--  
由W3C推荐的WordNet是RDF格式文档,对于此类工具的使用,大家通常的做法是什么呢?
先进行格式转换再使用?或者直接读取?或者先存储在数据库中再使用?
欢迎大家进行交流,谈谈自己的感想。
借此机会先谈谈自己的看法:虽然我没有对这几种方案进行性能比较,不能明确地说出它们之间的差异。但是RDF本身就是一种结构化的数据表示方法,似乎向数据库中存储不是必要的选择,而直接使用XML格式的词网的文章我曾见到过,而且曾参与讨论的一位同志也使用过,不过如果直接使用RDF格式的词网呢?
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
4,531.250ms