以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 WORD to XML, HTML to XML 』  (http://bbs.xml.org.cn/list.asp?boardid=13)
----  [求助]关于Jtidy的问题  (http://bbs.xml.org.cn/dispbbs.asp?boardid=13&rootid=&id=54597)


--  作者:limeng22000
--  发布时间:10/29/2007 6:05:00 PM

--  [求助]关于Jtidy的问题
最近使用Jtidy将Html文件转换为Xml文件。
但转换成的Xml文件却没有声明,即没有<?xml version="1.0" encoding="gb2312"?>
使用tidy的方法tidy.setXmlPi(true)生成的声明为<?xml version="1.0"?>,缺少encoding部分。
请问如何才能用Jtidy使转换后的Xml文件具有<?xml version="1.0" encoding="gb2312"?>这种形式的声明呢?
万分感谢。
--  作者:fangel2000
--  发布时间:10/31/2007 6:49:00 PM

--  
你利用Jtidy成功的将Html文件转换成了Xml了吗?
我以前研究这个的时候,出现了很多问题,能否赐教一下
--  作者:limeng22000
--  发布时间:10/31/2007 8:29:00 PM

--  
我是用Java程序转换的,不是dos命令窗口模式转换。
具体程序代码网上多得是,我也是Copy别人的代码。主要的就这几行:
u = new URL(url);
in = new BufferedInputStream(u.openStream());
out = new FileOutputStream(outFileName);
tidy.parse(in, out);
--  作者:hongjuesir
--  发布时间:11/3/2007 3:08:00 AM

--  
http://sourceforge.net/projects/jtidy 下载源码,里面有它的api文档

看了一下,tidy类下有下面方法:
setCharEncoding(int charencoding)

我没有测试,你自己试试吧。


--  作者:limeng22000
--  发布时间:11/3/2007 4:02:00 PM

--  
setCharEncoding(int charencoding)我在程序中也有用到。
是tidy.setCharEncoding(Configuration.RAW),它的作用是可以使网页中的中文字符在结果Xml文件中被正常显示出来。
即使有tidy.setCharEncoding(Configuration.RAW)这句话,使用tidy.setXmlPi(true)的输出还是<?xml version="1.0"?>,没有encoding部分。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
46.875ms