新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     >>计算机科学论坛<<     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论高级C/C++编程、代码重构(Refactoring)、极限编程(XP)、泛型编程等话题
    [返回] 计算机科学论坛计算机技术与应用『 C/C++编程思想 』 → Unicode格式和纯文本格式的相互转换 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 6851 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: Unicode格式和纯文本格式的相互转换 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     卷积内核 帅哥哟,离线,有人找我吗?
      
      
      威望:8
      头衔:总统
      等级:博士二年级(版主)
      文章:3942
      积分:27590
      门派:XML.ORG.CN
      注册:2004/7/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给卷积内核发送一个短消息 把卷积内核加入好友 查看卷积内核的个人资料 搜索卷积内核在『 C/C++编程思想 』的所有贴子 访问卷积内核的主页 引用回复这个贴子 回复这个贴子 查看卷积内核的博客楼主
    发贴心情 Unicode格式和纯文本格式的相互转换


    ---- 用Word7.0写完文章,可选用Unicode格式或纯文本格式保存文件。
    Unicode文件以0xff,0xfe作为开始,文件中每个ASCII符和汉字均用两个字节表
    示;纯文本文件中,汉字也用两个字节表示,但编码与Unicode文件不同。以有代
    表性的"0a啊雹帷幔"字串为例,在GB-2312(80)码表中,"啊雹"是一级字,对
    应16区1位和17区2位,"帷幔" 是二级字,对应65区1位和65区3位,在Unicode文
    件中,此字串依此存成0x30,0,0x61,0,0x4a,0x55,0xf9,0x96,0x37,0x5e,0x54,
    0x5e在纯文本文件中,依此存成0x30,0x61,0xb0,0xa1,0xb1,0xa2,0xe1,0xa1,
    0xe1,0xa3.两者的存储映射关系不易看出。

    ---- 下面给出实用转换C程序,它将Unicode文件的内容处理为宽字节,将纯文
    本文件的内容处理为多字节,用VC2.0中的数据转换例程wcstombs,mbstowcs及
    专门处理本地字符(汉字)的setlocale实现转换。u2a()函数将名为"u.fil"的
    Unicode文件转为名为"a.fil"的纯文本文件,a2u()函数的作用与u2a()正相反。
    这里假定文件长度小于1000字节.

    #include
    #include  
    /*含有setlocale原型*/
    #include  
    /*含有wcstombs,mbstowcs原型*/
    FILE *f;int i;char abuf[1000];char ubuf[1000];
    void u2a(){
    f=fopen("u.fil","rb");
    /*二进制读文件*/
    i=fread(ubuf,1,1000,f);
    /*读出了i个字节*/
    fclose(f);
    i=wcstombs(abuf,(wchar_t*)(ubuf+2),i-2);
    /*跳过Unicode头,转成的多字节数返到i*/
    f=fopen("a.fil","wb");
    /*二进制写文件*/
    fwrite(abuf,1,i,f);
    /*将写入i个字节*/
    fclose(f);}
    void a2u(){
    f=fopen("a.fil","rb");
    /*二进制读文件*/
    i=fread(abuf,1,1000,f);
    /*读出了i个字节*/
    fclose(f);
    i=mbstowcs((wchar_t*)ubuf,abuf,i);
    /*转成的宽字节数返到i*/
        f=fopen("u.fil","wb");
    fputc(0xff,f);fputc(0xfe,f);
    /*写Unicode头*/
    fwrite(ubuf,1,i*2,f);
    /*一个宽字节占两个字节*/
    fclose(f);}
    void main(){
    setlocale(LC_CTYPE,".OCP");
    /*代码页来自中文95操作系统*/
    u2a();a2u();}

    ---- 以上程序在Windows95,VC6.0环境下通过.


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    事业是国家的,荣誉是单位的,成绩是领导的,工资是老婆的,财产是孩子的,错误是自己的。

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/2/5 10:38:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 C/C++编程思想 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/19 9:55:23

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    46.875ms