以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  2nd Workshop - Ontology Annotation群聊天记录  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=20805)


--  作者:iamwym
--  发布时间:8/1/2005 4:03:00 AM

--  2nd Workshop - Ontology Annotation群聊天记录

2005-07-31 14:52:38 一一(13176246)
ok,谁先来说一下自己对本体标注的认识?

2005-07-31 14:54:40 闭门造车(83563561)
本体标注是语义网络的基础

2005-07-31 14:55:29 闭门造车(83563561)
没有语义标识,就不能充分利用WEB的海量信息,语义标识是semantic web的第一步

2005-07-31 14:55:55 一一(13176246)
其他人怎么看?

2005-07-31 14:55:58 草上飞(513238521)
本体标注是为了对现有web进行语义标识,便于进行语义搜索,计算机智能信息处理等等

2005-07-31 14:56:31 草上飞(513238521)
语义标识的工作量巨大,必须自动或半自动进行

2005-07-31 14:57:17 jiexincao(9177025)
前几天看了几篇老点的paper,01、02年的,好像那时候的语义标注跟标引之间的差别很小,差不多意思都是抽取词然后与本体(词表)进行关联

2005-07-31 14:57:29 一一(13176246)
一个问题,现在网络的信息的主要来源是什么?

2005-07-31 14:57:48 一一(13176246)
来源于自动和半自动的信息收集吗?

2005-07-31 14:57:56 我想去看海(125521406)
搜索

2005-07-31 14:57:56 一一(13176246)
一个问题,现在网络的信息的主要来源是什么?  

2005-07-31 14:57:56 草上飞(513238521)
不是

2005-07-31 14:58:05 草上飞(513238521)
数据库

2005-07-31 14:58:16 一一(13176246)
我的意思是,原始数据来源

2005-07-31 14:58:37 一一(13176246)
互联网上基本上所有的现存信息,都是人输入的

2005-07-31 14:58:53 我想去看海(125521406)
文本

2005-07-31 14:58:57 阿飞外传(56084268)
(权当凑热闹):本体标注还不如说是本体没有强化的类型系统,只是一种内容类型的体现。

2005-07-31 14:59:06 北冥鲲(25461865)
标注在网页制作的时候就做好?

2005-07-31 14:59:09 一一(13176246)
互联网上基本上所有的现存信息,都是人输入的,那为什么语义网的东西要机器输入?

2005-07-31 14:59:33 一一(13176246)
这是我个人的一个思考

2005-07-31 14:59:47 jiexincao(9177025)
好像是强调机器理解

2005-07-31 14:59:56 一一(13176246)
语义网的目的使人能够从繁琐的信息搜寻中解脱出来

2005-07-31 14:59:57 jiexincao(9177025)
而不是机器输入,

2005-07-31 15:00:35 一一(13176246)
是的,所以机器自动半自动的标注,也是必须建立现有的信息库这个基础上

2005-07-31 15:00:42 一一(13176246)
ok,大家继续

2005-07-31 15:00:45 闭门造车(83563561)
现在的信息计算机是不理解的,只是一堆二进制,语义网络是让计算机能理解这些信息,从语义层面,而不是语法层面

2005-07-31 15:00:51 周伯通(24799411)
是便于机器处理

2005-07-31 15:00:58 闭门造车(83563561)
我们team对annotation网站的8个标识系统的4个系统进行了仔细分析,发现有两种途径:自动、手工两种方式。其中W3C的ANNOTEA的材料放在http://forumabc.net/cgi-bin/forums.cgi?forum=12了

2005-07-31 15:01:14 闭门造车(83563561)
但是大家都不同意用自动方式

2005-07-31 15:01:26 闭门造车(83563561)
认为必须用手工或半自动 方式

2005-07-31 15:01:44 闭门造车(83563561)
这一点在我们team争论很激烈

2005-07-31 15:01:53 周伯通(24799411)
因为现在没有标准

2005-07-31 15:02:08 jiexincao(9177025)
但是不用自动的也存在问题,yahoo的分类方法不如google就是一个例子啊

2005-07-31 15:02:09 草上飞(513238521)
因为自动方式要实现基本上是不可能的,因为难度太大,而不是因为自动不好

2005-07-31 15:02:10 北冥鲲(25461865)
自动的话是不是还要牵涉到中文分词阿

2005-07-31 15:02:56 jiexincao(9177025)
自动切分词技术可以使用以后的im的研究成果,

2005-07-31 15:02:57 闭门造车(83563561)
原来本想仿照magpie实在自动的方式,但让枪毙了

2005-07-31 15:03:02 草上飞(513238521)
yahoo的分类方法是不是手工实现的?

2005-07-31 15:03:43 北冥鲲(25461865)
恩,原来yahoo是,现在不是了

2005-07-31 15:04:39 草上飞(513238521)
我觉得半自动标识是目标还是自动标识,在技术上有难度了,不得不人工介入,就变成了半自动

2005-07-31 15:04:46 闭门造车(83563561)
有对时空标识感兴趣的同仁吗?

2005-07-31 15:07:30 一一(13176246)
我想最好没有发言的朋友参与进来

2005-07-31 15:08:14 jiexincao(9177025)
斑竹还是提议几个话题吧,那样可能会讨论集中一点

2005-07-31 15:08:54 一一(13176246)
有没有做过关于标注的东西?

2005-07-31 15:09:18 一一(13176246)
或者说有没有实现过一个系统,用过本体标注

2005-07-31 15:09:32 一一(13176246)
或者有没有用过一个本体标注系统

2005-07-31 15:09:47 一一(13176246)
底线,有没有见过人家用过本体标注的系统?

2005-07-31 15:09:51 jiexincao(9177025)
试过AeroSWARM

2005-07-31 15:10:15 一一(13176246)
Ok,jiexincao来介绍一下这个东西

2005-07-31 15:10:37 jiexincao(9177025)
那个使用起来很简单,就是选择一个本体,再选择一个页面,然后它可以生成一个标注结果

2005-07-31 15:11:00 一一(13176246)
嗯,继续,原理,实现过程

2005-07-31 15:11:23 jiexincao(9177025)
http://ubot.lockheedmartin.com/ubot/hotdaml/aeroswarm.html这是它的网址,具体的原理没有仔细看,汗!

2005-07-31 15:11:56 一一(13176246)
ok,除了jiexincao,有没有谁好见过什么本体标注的系统?

2005-07-31 15:12:00 闭门造车(83563561)
有没有做过关于标注的东西?
===========我们正在做
或者有没有用过一个本体标注系统
===========我们小组研究了4个,包括annotea magpie 还有jiexincao研究过的KIM

2005-07-31 15:12:01 jiexincao(9177025)
这是自动标注的,所以标注结果不是很理想,

2005-07-31 15:12:16 北冥鲲(25461865)
ontoweb~

2005-07-31 15:12:23 闭门造车(83563561)
http://forumabc.net/cgi-bin/topic.cgi?forum=12&topic=87&show=0

2005-07-31 15:12:36 一一(13176246)
闭门造车同学,介绍一下你们研究的4个系统

2005-07-31 15:12:53 一一(13176246)
他们的实现方法,特点,缺点

2005-07-31 15:12:58 闭门造车(83563561)
这个是W3C在2002年做的

2005-07-31 15:13:14 一一(13176246)
他们的实现方法,特点,缺点

2005-07-31 15:13:28 闭门造车(83563561)
是手工的,我感觉它的优势是解决了标识的RDF存储

2005-07-31 15:13:43 闭门造车(83563561)
但因为是三年前的东西,

2005-07-31 15:13:53 闭门造车(83563561)
有些思路不好

2005-07-31 15:14:05 一一(13176246)
哪些思路不好?

2005-07-31 15:14:47 闭门造车(83563561)
annotea用了之后,只是一个供多个人做书签的东西

2005-07-31 15:15:08 闭门造车(83563561)
就跟PDF上能做的标注,只是这个标注是用RDF存了

2005-07-31 15:15:44 闭门造车(83563561)
我其实感觉MAGPIE不错,跟我们正做的标识系统思路相近

2005-07-31 15:17:17 一一(13176246)
它有什么特点呢/

2005-07-31 15:17:28 闭门造车(83563561)
我有些感觉ANNOTEA只是将标识用RDF存了,但存储之后有什么用,没看到

2005-07-31 15:18:58 闭门造车(83563561)
http://forumabc.net/cgi-bin/topic.cgi?forum=12&topic=49&show=25 是对magpie的介绍,我向诸位推荐MAGPIE这个东西

2005-07-31 15:19:04 xiaozhang(164241961)
想问一下,你所说的用rdf存了,是说用rdf描述了标注实例的意思吗?那存储方式是什么呢?rdf文件还是关系数据库,或者xml数据库?

2005-07-31 15:19:10 闭门造车(83563561)
真是受益颇多

2005-07-31 15:19:36 闭门造车(83563561)
想问一下,你所说的用rdf存了,是说用rdf描述了标注实例的意思吗?那存储方式是什么呢?rdf文件还是关系数据库,或者xml数据库?
============是用RDF描述标注,

2005-07-31 15:19:55 闭门造车(83563561)
RDF的存储方式比较多,有数据库方式,有文件方式,

2005-07-31 15:20:08 闭门造车(83563561)
这在JENA中能看到

2005-07-31 15:20:32 闭门造车(83563561)
RDF的本质是三元组,存储方式比较多

2005-07-31 15:20:58 闭门造车(83563561)
有对时空标识感兴趣的吗?

2005-07-31 15:22:09 一一(13176246)
是这样的,今天这种关于标识的讨论,其实只是一种比较通常topic的介绍,而不是很细节的研讨

2005-07-31 15:22:23 一一(13176246)
其实如果大家都在做一样东西,就没什么可以做的乐

2005-07-31 15:22:30 闭门造车(83563561)
2nd Weekend Workshop改期:
周六晚的workshop改成周日晚进行,时间仍为北京时间22:00于qq群上

2005-07-31 15:22:43 闭门造车(83563561)
一一(13176246) 21:09:11
3点开始,呵呵

2005-07-31 15:25:11 冰雨(123588709)
有各种各样的数据源,现有的标注工具,一般都是对什么数据源进行标注亚

2005-07-31 15:25:38 一一(13176246)
嗯,我说我这里的时间了

2005-07-31 15:25:58 jiexincao(9177025)
网上很多种标注工具,对于网页,图像,word文档的都有

2005-07-31 15:26:03 草上飞(513238521)
现在本体标注信息是不是很多独立于原始文档的,如果这样,其他人怎样知道有这样的本体标识信息存在呢?

2005-07-31 15:26:19 jiexincao(9177025)
我觉得KIM很不错,实现了标注,存储标注信息,检索,以及知识库的扩充,是一个功能比较全的检索系统。

2005-07-31 15:27:09 jiexincao(9177025)
它的标注信息是使用的开源软件Sesame进行存储管理的

2005-07-31 15:28:49 jiexincao(9177025)
这个软件具体是怎么管理RDF的还没有研究过

2005-07-31 15:29:58 jiexincao(9177025)
怎么没有人说话了啊?

2005-07-31 15:30:35 飘流(44714511)
请问你说得KIM是开源的吗?

2005-07-31 15:32:01 jiexincao(9177025)
好像没看到说是开源的,不过可以下载

2005-07-31 15:32:07 jiexincao(9177025)
http://www.ontotext.com/kim/index.html

2005-07-31 15:32:12 草上飞(513238521)
以后制作的网页会不会直接包含语义信息,从而不再需要本体标识? 现在的本体标识是不是为了解决历史遗留问题?

2005-07-31 15:32:14 jiexincao(9177025)
这里是它的主页

2005-07-31 15:35:13 jiexincao(9177025)
我觉得不太可能,一般的网页的作者怎么直接以“语义信息”的形式“写网页”。就像现在的书目的分类号一样,还是需要相对专业的人来完成这项工作。

2005-07-31 15:35:21 飘流(44714511)
刚刚浏览了一遍,好像不能开源,不过还是很有研究参考价值的,谢谢

2005-07-31 15:38:44 jiexincao(9177025)
今天的人怎么一下子都少了啊,而且大家都不说话了,闷!

2005-07-31 15:38:46 一一(13176246)
大家继续讨论阿

2005-07-31 15:39:07 闭门造车(83563561)
不知道

2005-07-31 15:39:10 飘流(44714511)
我到觉得,以后一定应该有一种语言,它能够很好的被网页作者能够很好的使用,而起能够很好的能够被计算机所能够理解,这也就是现在语义网的所进行的工作。以后要做一种IDE的可是化工具能够之间将用户的操作映射为可被计算机识别的标记

2005-07-31 15:39:25 闭门造车(83563561)
高见

2005-07-31 15:39:46 一一(13176246)
其实有几个人参与进来就可以了,很多人都是第一次新鲜,来看看,然后发现没什么意思,就不来了

2005-07-31 15:39:47 jiexincao(9177025)
我觉得这种映射就是标注

2005-07-31 15:40:09 草上飞(513238521)
我理解的语义信息不是整篇文档的信息都能被计算机所理解的信息,而是其中一些关键信息,或一些语句中的关键能被计算机所理解,这样的话,在制作网页的同时作者对其中一些语名或一些词进行标注完全是有可能的

2005-07-31 15:40:36 闭门造车(83563561)
请问一一,您能说说对语义标识的见解吗?谢谢

2005-07-31 15:41:06 闭门造车(83563561)
我和jiexincao都是刚入语义标识的门

2005-07-31 15:41:18 闭门造车(83563561)
请您指点一二

2005-07-31 15:41:47 煒(16347233)
能解释下语义标识与ontology的关系吗?

2005-07-31 15:41:50 飘流(44714511)
还有就是被标记语句含义之间的映射,这部分内容实现起来可能更加困难,因为要涉及到不同的语言,文化环境等因素,以及要依赖于人工智能在语言识别方面的突破

2005-07-31 15:41:55 jiexincao(9177025)
你的意思就是像现在写论文自己拟几个关键词那样,把其中的某些概念标注出来?

2005-07-31 15:42:06 草上飞(513238521)
我还是门外汗,敬请大家多多指教

2005-07-31 15:42:04 闭门造车(83563561)
请问一一,您能说说对语义标识的见解吗?谢谢

2005-07-31 15:42:10 阿飞外传(56084268)
从前面的列子看,好像语义标识,就是语法解析的结果。

2005-07-31 15:42:30 闭门造车(83563561)
从前面的列子看,好像语义标识,就是语法解析的结果。
======语义和语法是两个层次

2005-07-31 15:42:43 阿飞外传(56084268)
事实上仍是一个层次

2005-07-31 15:43:12 音乐虫子(9655482)
关于语义网的查询的人机交互界面,大家有什么看法

2005-07-31 15:43:12 煒(16347233)
语义标示的参考是不是还要用到ontology ?

2005-07-31 15:43:14 阿飞外传(56084268)
只不是过对语法解析之后的再解析

2005-07-31 15:43:17 草上飞(513238521)
比关键词的内容肯定要丰富得多,比如一篇文档有100个语句,可能其中20个句子意义比较重要,就要进行标注

2005-07-31 15:43:19 一一(13176246)
是这样的,在目前的硬件技术条件下,我对语义标识的前景不看好

2005-07-31 15:43:40 闭门造车(83563561)
我不同意您的观点

2005-07-31 15:43:33 闭门造车(83563561)
为什么?

2005-07-31 15:43:53 音乐虫子(9655482)
速度问题吧

2005-07-31 15:44:00 jiexincao(9177025)
’‘只不是过对语法解析之后的再解析   目前的自动标注并没有对信息进行语法分析

2005-07-31 15:44:00 闭门造车(83563561)
您能解释一下:“在目前的硬件技术条件下,我对语义标识的前景不看好”

2005-07-31 15:44:05 一一(13176246)
是的,速度问题

2005-07-31 15:44:09 阿飞外传(56084268)
因为语义处理是在抽象语法之后的事

2005-07-31 15:44:15 jiexincao(9177025)
半自动的是人对它进行分析

2005-07-31 15:44:19 闭门造车(83563561)
能再说清楚一点吗?

2005-07-31 15:44:28 阿飞外传(56084268)
而语义处理,仍是语法域到语义域的射。

2005-07-31 15:44:26 闭门造车(83563561)
是什么速度问题?

2005-07-31 15:44:39 一一(13176246)
要多少语义标注,才能对webpage可用?

2005-07-31 15:44:52 一一(13176246)
而且这东西能够方便用户吗?

2005-07-31 15:45:12 阿飞外传(56084268)
其实你设计语义标注,本身就在设计一种内容类型系统。只不过弱的。

2005-07-31 15:45:22 飘流(44714511)
我感觉做语义标志首先要明确它要实现的目标是什么,我的理解是它能够对我们在网络上所感兴趣的词语能够进行自动的解释,这种解释来自于网络中其它网页中可能出现过的此类词语的注释

2005-07-31 15:45:27 一一(13176246)
阿飞说对了

2005-07-31 15:45:41 阿飞外传(56084268)
因为html markup只不是给内容加了一层内容无关的格式

2005-07-31 15:45:43 一一(13176246)
对了,大家注意过今年iswc有多少标注论文?

2005-07-31 15:45:56 阿飞外传(56084268)
具体的含义,仍由语义标注决定

2005-07-31 15:46:04 阿飞外传(56084268)
这就是内容模型的类型。

2005-07-31 15:46:14 一一(13176246)
我记得去年是标注的一年,今年马上少掉很多

2005-07-31 15:46:52 闭门造车(83563561)
要多少语义标注,才能对webpage可用?
一一(13176246) 22:44:52
而且这东西能够方便用户吗?
================我对对WEB进行语义标识没有认识,但是对特定领域和应用是有用的,时间上没有问题

2005-07-31 15:47:22 一一(13176246)
现在建立的标注系统,永远不可能达到通用性,往往一个领域内的应用,可是有人用吗?

2005-07-31 15:47:38 草上飞(513238521)
给自己写论文用,:-)

2005-07-31 15:47:46 一一(13176246)
至少据我所知,本体标注,至少今年不是什么热点

2005-07-31 15:47:53 一一(13176246)
对,自己写论文没问题,哈哈

2005-07-31 15:48:17 一一(13176246)
主要是遇到了瓶颈,一个技术上的瓶颈

2005-07-31 15:48:33 一一(13176246)
很多无法解决的问题,为什么是半自动?全自动不可能咯

2005-07-31 15:48:35 飘流(44714511)
敢问什么技术瓶颈

2005-07-31 15:49:08 一一(13176246)
本体半自动标注有用到data mining的技术吧?还有模式识别

2005-07-31 15:49:26 jiexincao(9177025)
我觉得不一定先要有internet再有intranet,可以反过来,类似的可以先领域再全局,

2005-07-31 15:49:26 一一(13176246)
在模式匹配的时候,还有自然语言处理的技术

2005-07-31 15:49:42 闭门造车(83563561)
现在建立的标注系统,永远不可能达到通用性,往往一个领域内的应用,可是有人用吗?
=================有人用,有迫切需求,关键在于咱们要选准

2005-07-31 15:49:50 飘流(44714511)
主要是人工智能方面的理论还没有达到要求,

2005-07-31 15:50:32 闭门造车(83563561)
我感觉一一的标识的理解还限于类似PDF的标注

2005-07-31 15:50:33 一一(13176246)
闭门造车朋友你们是在开发一个专用系统,项目来了给钱然后就做,现有技术可以解决问题了

2005-07-31 15:50:48 闭门造车(83563561)
如果这样,语义标注是没有大用

2005-07-31 15:50:55 jiexincao(9177025)
我觉得像KIM那样的系统,对于某个企业来说已经可以用了,但是它不还能对整个www进行标注,

2005-07-31 15:50:59 闭门造车(83563561)
但在具体领域是大有用的

2005-07-31 15:51:19 一一(13176246)
没错,一般都是domain specific

2005-07-31 15:51:23 闭门造车(83563561)
我认为现在对整个WWW进行标识没有用

2005-07-31 15:51:38 闭门造车(83563561)
要针对某一具体领域的一个点做,是有用的

2005-07-31 15:52:07 阿飞外传(56084268)
这东西就像UML世界的uml profile for xxx。

2005-07-31 15:52:15 一一(13176246)
不一定是整个,也许只是一个内网,但是进行通用的标注,也不行,只能进行domain specific的乐

2005-07-31 15:52:29 一一(13176246)
我只是想大家认识到一些技术局限,其他没什么,大家继续

2005-07-31 15:52:29 闭门造车(83563561)
这个观点我同意

2005-07-31 15:52:54 jiexincao(9177025)
所以可以现在先做特定范围的信息的标注,这样即使是半自动的也可以接受啊

2005-07-31 15:53:00 阿飞外传(56084268)
现在编程界也在搞DSL,多少有些相同。

2005-07-31 15:53:11 闭门造车(83563561)
不好意思,因为我正在做化工火灾临机决策 领域的标注,有些感想而已

2005-07-31 15:53:09 音乐虫子(9655482)
没办法让计算机的理解力和人一样,清楚的认识整个世界,也不可能

2005-07-31 15:53:37 闭门造车(83563561)
化工火灾这个点我感觉选 都大了

2005-07-31 15:54:14 阿飞外传(56084268)
像MPS(Meta-Programming System)编程系统,可以开发自已的DSL。还有就是lisp了。

2005-07-31 15:54:47 飘流(44714511)
请问闭门造车,你做的项目同一般的决策支持系统有什么区别吗

2005-07-31 15:55:17 闭门造车(83563561)
我做的不是DSS,我感觉DSS太虚了

2005-07-31 15:55:34 闭门造车(83563561)
我认为决策者不需要计算机算出的方案

2005-07-31 15:55:51 闭门造车(83563561)
而是要为他们提供所正需要的信息

2005-07-31 15:55:57 闭门造车(83563561)
就足够了

2005-07-31 15:56:16 闭门造车(83563561)
计算机算出的方案,在应急情况下没用

2005-07-31 15:56:39 闭门造车(83563561)
而是要为他们提供所正需要的信息
=========而这一点正是本体和SW的长处

2005-07-31 15:56:49 jiexincao(9177025)
现在的语义标注的主要问题是不是还是自动标注的问题?

2005-07-31 15:56:59 闭门造车(83563561)
不是

2005-07-31 15:57:07 闭门造车(83563561)
自动标识是行不通

2005-07-31 15:57:18 飘流(44714511)
那方案是已有的了,只是判断能够触发它的环境就可以了?是这样吗

2005-07-31 15:57:53 闭门造车(83563561)
那方案是已有的了,只是判断能够触发它的环境就可以了?是这样吗
===========在应急情况下,要面对应急情况的突发情况采取措施

2005-07-31 15:57:56 jiexincao(9177025)
虽然目前行不通,但是人们还是需要自动标注技术对吗?

2005-07-31 15:58:11 闭门造车(83563561)
需要,但做不到

2005-07-31 15:58:10 jiexincao(9177025)
特别是海量信息

2005-07-31 15:58:25 闭门造车(83563561)
因为只有人才能理解信息,

2005-07-31 15:58:35 闭门造车(83563561)
理解信息之后才能标注

2005-07-31 15:58:38 闭门造车(83563561)
对吗?

2005-07-31 15:58:52 闭门造车(83563561)
机器不理解信息(只是0101010)

2005-07-31 15:58:53 jiexincao(9177025)
我觉得语义网的目标就是让机器“学会”理解

2005-07-31 15:59:00 闭门造车(83563561)
所以做不到自动 标注

2005-07-31 15:59:16 闭门造车(83563561)
我觉得语义网的目标就是让机器“学会”理解
=========没错,但是是在标注之后

2005-07-31 15:59:28 闭门造车(83563561)
标注之前是理解不了的

2005-07-31 15:59:30 音乐虫子(9655482)
是的,对某一个领域理解

2005-07-31 16:00:01 草上飞(513238521)
right

2005-07-31 16:00:33 音乐虫子(9655482)
我在做一个查询rdf repository的p2p系统

2005-07-31 16:00:54 阿飞外传(56084268)
“学会”理解 -- 理解什么啊,你看一下model theory就有说:那种机器理解在语义网不过是模式匹配和替换。

2005-07-31 16:01:08 音乐虫子(9655482)
关于查询的交互界面感觉必须限制很多范围后再输入某些关键词

2005-07-31 16:01:36 音乐虫子(9655482)
感觉很麻烦,大家有什么看法

2005-07-31 16:01:53 音乐虫子(9655482)
限制好后方便转成RQL等语句

2005-07-31 16:02:04 闭门造车(83563561)
关于查询的交互界面感觉必须限制很多范围后再输入某些关键词
=======小伙子,是不是脱离今天的主题了?

2005-07-31 16:02:07 闭门造车(83563561)
不好意思

2005-07-31 16:02:13 音乐虫子(9655482)
??

2005-07-31 16:02:18 jiexincao(9177025)
人的思维也是模式匹配与替换,——当然人还有一些联想之类的东西

2005-07-31 16:02:30 jiexincao(9177025)
不然为什么语言是思维的外壳?

2005-07-31 16:02:57 音乐虫子(9655482)
呵呵,谁有看法就说说

2005-07-31 16:03:22 阿飞外传(56084268)
不能超越这两个,语义网没有多大的意思。

2005-07-31 16:03:36 闭门造车(83563561)
今天的topic is annotation

2005-07-31 16:03:43 音乐虫子(9655482)
让机器完全理解人的世界本身就很难

2005-07-31 16:03:54 jiexincao(9177025)
我们理解“我是人”还不是就是你知道了“我”是一个代词,指代……,人是一个名词,指代……,

2005-07-31 16:03:54 音乐虫子(9655482)
ok

2005-07-31 16:04:27 jiexincao(9177025)
你还知道这样一种语法结构:……是……

2005-07-31 16:04:31 阿飞外传(56084268)
不是。

2005-07-31 16:04:36 闭门造车(83563561)
jiexincao颇有见解

2005-07-31 16:05:04 阿飞外传(56084268)
没有结构就不行吗,要是不是这种结构呢。

2005-07-31 16:05:23 闭门造车(83563561)
jiexincao 来学校后,跟导师商量一下,和我们一起做些语义研究吧。

2005-07-31 16:05:40 jiexincao(9177025)
如果不符合语法结构在,语言就不能被他人理解

2005-07-31 16:05:44 闭门造车(83563561)
语义网必须结合具体领域,才有意义

2005-07-31 16:06:29 闭门造车(83563561)
大家认为如何?

2005-07-31 16:06:44 音乐虫子(9655482)
必须是这样的

2005-07-31 16:07:03 音乐虫子(9655482)
不可能让机器理解整个世界

2005-07-31 16:07:09 阿飞外传(56084268)
不明白,除了结构就没有别的吗。是不是结构圈死了我们自已。

2005-07-31 16:07:10 草上飞(513238521)
虽然人和机器对某个东西能达成相同的共识,但其途径我觉得完全不一样的,机器理解是非常低级的模式匹配,就像人工智能远远不能达到人类智能一样

2005-07-31 16:07:45 阿飞外传(56084268)
同意草上飞

2005-07-31 16:07:49 jiexincao(9177025)
那是因为我们对人自身的智能的认识还不够

2005-07-31 16:07:55 草上飞(513238521)
现在的本体标识仅仅是为了机器能够实现这样的模式匹配

2005-07-31 16:08:05 jiexincao(9177025)
我们可以多看看婴儿的学习

2005-07-31 16:08:08 音乐虫子(9655482)
转的

2005-07-31 16:08:25 音乐虫子(9655482)
主要问题的是,随着系统中规则的变化,排列组合越来越多,计算机从互联网页面上数据做出推论所需要花费的时间就会急剧地增加。

2005-07-31 16:08:29 草上飞(513238521)
现在的本体标识仅仅是为了机器能够实现这样的模式匹配  

2005-07-31 16:08:43 阿飞外传(56084268)
然后就说这种就是语义?

2005-07-31 16:08:53 阿飞外传(56084268)
对。

2005-07-31 16:10:06 jiexincao(9177025)
对于整个语义网来说,标注不是最核心的问题

2005-07-31 16:10:21 jiexincao(9177025)
所以不能说标注完了语义就出来了

2005-07-31 16:10:48 音乐虫子(9655482)
rdf数据就是三元组,机器就是在无数三元组间进行低级匹配,根据标注找到需要的

2005-07-31 16:10:49 阿飞外传(56084268)
继续。

2005-07-31 16:11:11 飘流(44714511)
请问各位大侠,谁能给个语义标注的确切定义?

2005-07-31 16:11:37 草上飞(513238521)
标注不是全部,但标注是基础,如果没有本体标注,那语义网还不是现在的web

2005-07-31 16:11:45 jiexincao(9177025)
语义需要其他的技术支持,而这些的技术很多仍然在研究之中,语义网的技术架构上的东西实现的算是四层了,但是这都是些相对基础的东西

2005-07-31 16:13:37 阿飞外传(56084268)
写论文时可以用用。现有语义方法,属性文法、二级方法、指称语义、代数语义、公理语义、动作语义。SW是什么语义方法。

2005-07-31 16:14:29 阿飞外传(56084268)
再加上操作语义。

2005-07-31 16:15:06 Anning(6419157)
偶也爬上来了

2005-07-31 16:15:19 Anning(6419157)
刚才讨论的什么主题啊

2005-07-31 16:16:02 jiexincao(9177025)
描述逻辑属于什么?OWL三种子语言中是不是可以说OWL DL是最具有特色的啊?

2005-07-31 16:16:53 Anning(6419157)
DL是知识表示形式化

2005-07-31 16:17:09 Anning(6419157)
应该说owl dl是最有特色的

2005-07-31 16:17:23 Anning(6419157)
owl full

2005-07-31 16:17:29 Anning(6419157)
似乎用得不多

2005-07-31 16:18:36 jiexincao(9177025)
   一一(13176246) 22:52:29
    我只是想大家认识到一些技术局限,其他没什么,大家继续                            ——————目前的标注主要问题出在哪里啊?

2005-07-31 16:19:34 Anning(6419157)
一一,你们那边有没有做DL结合规划的????

2005-07-31 16:20:15 一一(13176246)
英文是什么啊?

2005-07-31 16:20:46 Anning(6419157)
dl-based planning  

2005-07-31 16:21:09 一一(13176246)
我觉得标注的问题还是瓶颈,技术上缺乏好的算法是的标注的结果比较好

2005-07-31 16:21:17 一一(13176246)
没有听说过,关于什么的?

2005-07-31 16:21:23 Anning(6419157)
在2005AI杂志上,有一篇desciption logics and planning

2005-07-31 16:21:54 Anning(6419157)
就是用基于DL来描述plan。action

2005-07-31 16:22:13 jiexincao(9177025)
标注算法?

2005-07-31 16:22:51 一一(13176246)
怎么说呢,标注足够准确,就要自己手动做,不可能,量太大

2005-07-31 16:23:23 jiexincao(9177025)
就像IM里的关键词的问题,手动与自动的矛盾?

2005-07-31 16:23:27 一一(13176246)
半自动的话呢,那么手动要做多少?我看就算是1/10手动,这个量还是太大

2005-07-31 16:24:01 音乐虫子(9655482)
就好比中英文翻译软件,达到正确翻译很难,

2005-07-31 16:27:17 jiexincao(9177025)
我觉得自动标注的研究需要研究自然语言理解的人参与进来做

2005-07-31 16:30:18 一一(13176246)
jiexincao说对了

2005-07-31 16:30:31 一一(13176246)
其实akt project,很多这个方向的人在做

2005-07-31 16:32:22 音乐虫子(9655482)
jiexincao是哪位?

2005-07-31 16:32:27 jiexincao(9177025)
但是确实“理解”这东西本身就是问题,短期不会有突破也很正常

2005-07-31 16:32:35 jiexincao(9177025)
什么?

2005-07-31 16:33:00 音乐虫子(9655482)
呵呵, 没什么

2005-07-31 16:34:23 草上飞(513238521)
问个问题:半自动本体标注,机器如果"标"错了,那怎么办?

2005-07-31 16:34:40 闭门造车(83563561)
我觉得标注的问题还是瓶颈,技术上缺乏好的算法是的标注的结果比较好
==========我认为关键在于:别去做泛泛的语义标识,而要选准一点领域应用点

2005-07-31 16:35:00 草上飞(513238521)
agree

2005-07-31 16:35:10 jiexincao(9177025)
半自动是有人在机器“旁边”的啊

2005-07-31 16:35:48 草上飞(513238521)
那所有的标识岂不是都要人来介入?

2005-07-31 16:36:21 jiexincao(9177025)
不是啊,可以机器来标注,人来纠正,我觉得这是可行的

2005-07-31 16:36:53 阿飞外传(56084268)
学习吧,等学习的熟一点,就人干预的少一点。

2005-07-31 16:36:54 jiexincao(9177025)
检索系统中也有半自动抽词赋词的

2005-07-31 16:37:02 草上飞(513238521)
就是说机器标注完成之后,还要由人来检查一遍

2005-07-31 16:38:06 阿飞外传(56084268)
机器绝不会出错,出错的是我们没有考虑的其它情况。

2005-07-31 16:39:17 jiexincao(9177025)
目前的机器与人相比还是各有长处的,机器缺少的是算法,人缺少的是大量的运算能力

2005-07-31 16:39:33 草上飞(513238521)
假设有一个构建好的本体,然后一篇文档由机器进行本体标注,我觉得错误的概率还是蛮大的

2005-07-31 16:39:34 jiexincao(9177025)
结合两者的有点还是可能的

2005-07-31 16:39:39 jiexincao(9177025)
确实,

2005-07-31 16:40:35 草上飞(513238521)
这种算法是人无法事先替机器设计好的

2005-07-31 16:42:20 jiexincao(9177025)
我以前简单的试过一下AeroSWARM,它能将一些东西标注出来,比如在它的知识库中有IBM,网页中出现IBM这个词,它就将它标注出来,这是可以的。但是它也有错误

2005-07-31 16:44:03 草上飞(513238521)
一些常识性词汇应该没问题的,但一词多义要让机器来识别就难了,对一些由人来理解都有点难度的,那机器就更没门了

2005-07-31 16:45:06 闭门造车(83563561)
所以自动标识是做不到的

2005-07-31 16:45:59 jiexincao(9177025)
所以目前的情况下如果采用半自动的方法可以在建立知识库ontology适当避开这些有歧义的情况,而让人去做:想一下我们使用包含10000个词的本体进行标注会累死人,但是只要你拿着10个本体进行标注问题就好办多了。

2005-07-31 16:46:29 草上飞(513238521)
再问一个问题:现在本体标注是不是主要针对词汇(概念),对一个句子如何理解语义呢,一个句子的语义往往比一个词汇的语义要重要,也更有实际意义

2005-07-31 16:47:15 jiexincao(9177025)
现在的标注系统都没有对句子进行标注的——机器的那部分工作;

2005-07-31 16:47:35 jiexincao(9177025)
即使手工标注也不是针对句子,

2005-07-31 16:47:55 jiexincao(9177025)
还是所谓概念,其表现就是词汇

2005-07-31 16:48:44 草上飞(513238521)
但一个句子中词汇的组合方式很多,根本无法由词汇的意思来判断句子的意义,如果仅仅针对词汇那真正的语义搜索是不是意义不大了

2005-07-31 16:48:42 阿飞外传(56084268)
就是词法分析吧。

2005-07-31 16:49:16 jiexincao(9177025)
所以切分词技术还是有用的

2005-07-31 16:50:18 jiexincao(9177025)
我觉得不是这样子,你进行检索的时候能把检索式转换成句子?

2005-07-31 16:51:26 贝塔(32039359)
今天的记录谁有?

2005-07-31 16:51:36 jiexincao(9177025)
你可以比较一下UMLS和原来的叙词表,然后在比较一下现在的语义网技术和叙词表,你会发现其中的进步还是很大的

2005-07-31 16:51:50 一一(13176246)
什么记录?

2005-07-31 16:52:05 jiexincao(9177025)
聊天记录?很多人都有,呵呵

2005-07-31 16:52:09 贝塔(32039359)
今天讨论的记录,我刚来

2005-07-31 16:55:27 草上飞(513238521)
睡觉了,明天还要早起

2005-07-31 16:55:49 草上飞(513238521)
bye,everyone.

2005-07-31 16:55:57 jiexincao(9177025)
晚安!

2005-07-31 16:56:00 贝塔(32039359)
bb

2005-07-31 16:56:15 阿飞外传(56084268)
[bye]

2005-07-31 16:57:03 贝塔(32039359)
记录谁给我发一份吧,我学习一下

2005-07-31 16:57:19 一一(13176246)
应该会发在网上的

2005-07-31 16:57:25 贝塔(32039359)
那也好


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
6,937.500ms