新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     >>计算机科学论坛<<     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> The future of AI, is the future of computer
    [返回] 计算机科学论坛计算机理论与工程『 人工智能 :: 机器学习|数据挖掘|进化计算 』 → [转帖] 几个免费的中文分词模块 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 15422 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [转帖] 几个免费的中文分词模块 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 [转帖] 几个免费的中文分词模块

    http://www.myic.cn/blog/more.asp?name=Ultra&id=1303&commentid=4277

    几个免费的中文分词模块    
    -|Ultra 发表于 2005-8-14 20:19:05  

    几个月前做毕业论文的时候需要用到中文分词技术,现在总结一下我所找到的资料。

    一、什么是中文分词

    众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

    中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

    目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

    Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
    (以上内容摘录自附录1)


    二、计算所汉语词法分析系统 ICTCLAS

    中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

    下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6

    由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

    (1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

    (2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

    (3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine


    三、海量智能分词研究版

    海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

    下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8


    四、其他

    (1)CSW中文智能分词组件

    运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

    简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

    下载页面: http://www.vgoogle.net/

    (2) C# 写的中文分词组件

    据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

    下载页面: http://www.rainsts.net/article.asp?id=48


    附录:
    1. Winter;中文搜索引擎技术揭密:中文分词;http://www.e800.com.cn/articles/98/1091788186451.html


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/11/26 23:55:00
     
     waruqi 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:5
      积分:74
      门派:XML.ORG.CN
      注册:2005/11/26

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给waruqi发送一个短消息 把waruqi加入好友 查看waruqi的个人资料 搜索waruqi在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看waruqi的博客2
    发贴心情 

    ----------------------------------------------
    无限存,免费100G网络硬盘(强力推荐、绝对免费) 注册地址:(每天一次,不过可以通过删除cookies来重新注册) http://new.flashsave.com/web/get_reg.php?referid=129114

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/12/19 21:15:00
     
     Hecor 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:6
      积分:96
      门派:XML.ORG.CN
      注册:2006/1/16

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Hecor发送一个短消息 把Hecor加入好友 查看Hecor的个人资料 搜索Hecor在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Hecor的博客3
    发贴心情 
    也顶
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/1/16 11:17:00
     
     Hecor 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:6
      积分:96
      门派:XML.ORG.CN
      注册:2006/1/16

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Hecor发送一个短消息 把Hecor加入好友 查看Hecor的个人资料 搜索Hecor在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Hecor的博客4
    发贴心情 
    也顶
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/1/16 11:17:00
     
     kenlly 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2006/4/27

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给kenlly发送一个短消息 把kenlly加入好友 查看kenlly的个人资料 搜索kenlly在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看kenlly的博客5
    发贴心情 
    我本科毕业设计是中文分词,现在看来好亲切阿
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/4/27 16:30:00
     
     寻觅 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2006/5/7

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给寻觅发送一个短消息 把寻觅加入好友 查看寻觅的个人资料 搜索寻觅在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看寻觅的博客6
    发贴心情 
    东南大学不错
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/7 2:22:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/10 10:53:34

    本主题贴数6,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms