新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
随时掌握技术动态,请订阅:
《Web技术日报》
《机器学习日报》
   XML论坛     W3CHINA.ORG讨论区     >>计算机科学论坛<<     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 计算机科学论坛W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → [转帖] 几个免费的中文分词模块 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 48796 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [转帖] 几个免费的中文分词模块 举报  打印  推荐  IE收藏夹 
       本主题类别: 信息检索    
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18403
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    兴趣:
    * XML相关技术
    * 资料收集
    * Ontology Engineering
    * Web架构
    * SW Implementation
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 [转帖] 几个免费的中文分词模块

    http://emuch.net/html/200512/152933.html

    作者: zsglly  发布日期: 2005-12-13    查看数: 1   出自: http://emuch.net
    几个免费的中文分词模块
    -|Ultra 发表于 2005-8-14 20:19:05


    几个月前做毕业论文的时候需要用到中文分词技术,现在总结一下我所找到的资料。

    一、什么是中文分词

    众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

    中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

    目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

    Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
    (以上内容摘录自附录1)


    二、计算所汉语词法分析系统 ICTCLAS

    中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

    下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6

    由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

    (1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

    (2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

    (3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine


    三、海量智能分词研究版

    海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

    下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8


    四、其他

    (1)CSW中文智能分词组件

    运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

    简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

    下载页面: http://www.vgoogle.net/

    (2) C# 写的中文分词组件

    据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

    下载页面: http://www.rainsts.net/article.asp?id=48


    附录:
    1. Winter;中文搜索引擎技术揭密:中文分词;http://www.e800.com.cn/articles/98/1091788186451.html


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/12/16 22:44:00
     
     Jamsauce 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:11
      积分:118
      门派:XML.ORG.CN
      注册:2004/8/16

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Jamsauce发送一个短消息 把Jamsauce加入好友 查看Jamsauce的个人资料 搜索Jamsauce在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Jamsauce的博客2
    发贴心情 
    不错啊,
    收藏。
    多谢!
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/12/17 22:32:00
     
     yhl2016 美女呀,离线,快来找我吧!天秤座1980-10-1
      
      
      等级:大二(研究C++)
      文章:37
      积分:277
      门派:W3CHINA.ORG
      注册:2005/8/26

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给yhl2016发送一个短消息 把yhl2016加入好友 查看yhl2016的个人资料 搜索yhl2016在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看yhl2016的博客3
    发贴心情 
    正在苦苦寻求中,多谢好心人!
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/12/19 13:42:00
     
     zbfbeef 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:12
      积分:105
      门派:XML.ORG.CN
      注册:2005/12/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给zbfbeef发送一个短消息 把zbfbeef加入好友 查看zbfbeef的个人资料 搜索zbfbeef在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看zbfbeef的博客4
    发贴心情 
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/12/20 16:07:00
     
     suiyun0234 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:20
      积分:180
      门派:XML.ORG.CN
      注册:2006/8/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给suiyun0234发送一个短消息 把suiyun0234加入好友 查看suiyun0234的个人资料 搜索suiyun0234在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看suiyun0234的博客5
    发贴心情 
    收藏了,非常感谢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/8/21 16:01:00
     
     oicq我爱玩 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:18
      积分:150
      门派:XML.ORG.CN
      注册:2006/7/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给oicq我爱玩发送一个短消息 把oicq我爱玩加入好友 查看oicq我爱玩的个人资料 搜索oicq我爱玩在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看oicq我爱玩的博客6
    发贴心情 
    很不错哦~谢谢了~
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/8/21 20:41:00
     
     shdiao 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:10
      积分:101
      门派:XML.ORG.CN
      注册:2006/4/26

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给shdiao发送一个短消息 把shdiao加入好友 查看shdiao的个人资料 搜索shdiao在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看shdiao的博客7
    发贴心情 
    有用,多谢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/8/22 17:57:00
     
     shiziye 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:13
      积分:106
      门派:XML.ORG.CN
      注册:2006/8/24

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给shiziye发送一个短消息 把shiziye加入好友 查看shiziye的个人资料 搜索shiziye在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看shiziye的博客8
    发贴心情 
    不错,收藏
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/8/24 12:13:00
     
     shiziye 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:13
      积分:106
      门派:XML.ORG.CN
      注册:2006/8/24

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给shiziye发送一个短消息 把shiziye加入好友 查看shiziye的个人资料 搜索shiziye在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看shiziye的博客9
    发贴心情 
    不错,收藏
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/8/24 13:12:00
     
     areal 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:55
      门派:XML.ORG.CN
      注册:2007/4/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给areal发送一个短消息 把areal加入好友 查看areal的个人资料 搜索areal在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看areal的博客10
    发贴心情 
    提供一个基于bakeoff-2006(the third International Chinese Language Processing Bakeoff)的四种切分标准的中文分词工具下载
    http://bcmi.sjtu.edu.cn/~zhaohai
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/4/1 16:00:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2020/9/30 14:51:23

    本主题贴数11,分页: [1] [2]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    109.375ms