1. 下载安装OpenOffice,网址http://download.openoffice.org/index.html。
2. 下载第三方工具包JODConverter,http://www.artofsolving.com/opensource/jodconverter。
3. 工程中导入JODConverter中的jar包(jodconverter-2.2.2\lib)
* commons-io
* jodconverter
* juh
* jurt
* ridl
* slf4j-api
* slf4j-jdk14
* unoil
* xstream
import java.io.File;
import java.net.ConnectException;
import com.artofsolving.jodconverter.DocumentConverter;
import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;
import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;
import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;
public class OfficeConverter {
public static void main(String[] args) {
File inputFile = new File("C:/test/yy.doc");
File outputFile = new File("C:/test/yy.html");
OpenOfficeConnection con = new SocketOpenOfficeConnection(8100);
try {
con.connect();
} catch (ConnectException e) {
System.err.println("文件转换出错,请检查OpenOffice服务是否启动。");
e.printStackTrace();
}
DocumentConverter converter = new OpenOfficeDocumentConverter(con);
converter.convert(inputFile, outputFile);
con.disconnect();
}
}
4. 测试之前先启动OpenOffice服务
C:\Program Files\OpenOffice.org 3\program>soffice -headless -accept="socket,port=8100;urp;"
总结:使用OpenOffice作为转换引擎把word文档转换成html,比起使用微软的com组件有跨平台的优势,而且比Apache poi(POI貌似只能获取word中的文本内容,图片和表格,图片和表格的定位很是个问题,获取样式要一个字符一个字符的分析麻烦且效率低下)方便且简单,但是个人觉得开启Openoffice服务占用系统资源太多。
ps:word转换成html后会有很多冗余的word格式,严重影响了页面的加载,您一定很想把它们给清除掉,留下干净清爽的html代码。那请您参考我的下一篇文章去掉word冗余格式 java正则表达式 http://dangry.iteye.com/blog/858821
分享到:
相关推荐
java OpenOffice wordExcel转换PDF.zip 带jar包
使用openoff把word转化成html,详细步骤
Entry.java这个类的原理是先通过OfficeToPDF.java把文档转成pdf,然后再通过Pdf2Jpg.java这个类把PDF转成JPG或者PNG,想转成什么格式图片在Pdf2Jpg.java这个类当中设置一下,代码经过测试,完全没有问题,如果碰到...
NULL 博文链接:https://titanseason.iteye.com/blog/1471606
java使用OpenOffice实现的Excel转pfd,Excel中存在图片也可以完美的完成转换
基于Java,利用OpenOffice转换office为PDF, 内附有jar包,java实现,OpenOffice下载地址,及OpenOffice在Linux下的安装实现。
本人也用过office和wps,上传服务器期后出现了许多bug,最后选用openoffice实现最方便。前提服务器或电脑必须下载openoffice.具体配置文件参考:https://blog.csdn.net/smm188/article/details/54743822
Java技术通过JobConverter操作OpenOffice实现Word转PDF,支持(doc转PDF,docx转PDF),且OpenOffice支持linux、windows、mac等操作系统,本案例只测试了windows
OpenOffice转换Office文档为PDF、HTML,将word,ppt转成html,Excel转为Html
我从官网下载openoffice4.1.0版的,资源包含有openoffice相关jar包以及java调用文件和部署文档
基于openoffice实现的将word文件转换为PDF文件。 DocConverter.java是代码实现 controller.txt中写了简单的使用方法 所需jar包中提供了一些必须导入的jar包。 仅提供了核心部分代码,因为是从项目中提取出来的,测试...
NULL 博文链接:https://bigbird2012.iteye.com/blog/2078213
openoffice word转pdf excel转pdf ppt转pdf
java实现原理是调用openoffice的服务,需要先安装openoffice,具体如何下载和安装网上有文档,此资源提供的是代码,直接运行即可
java准确读取word页码,正确率100%,请结合本文查看http://blog.csdn.net/tiandixuanwuliang/article/details/71298406
本例通过VB脚本使用openoffice将word转成PDF
asp.net利用OpenOffice转换WORD/EXCEL/PDF为PDF,加水印源码
java调用openOffice转换office为pdf的jar包
毕竟有好多工具包好多版本方法都不一样,通过openoffice这次转换认识到了很多版本的重要性。这个小文件希望在你们需要的时候给予你们曙光【有一点缺点明显就是如果你的excel是故意行与行折叠在一起的,也许转换出来...
openoffice word2html所需包集合。