Apache POI Word 提取文本
为了从word文档中提取文本,XWPFWordExtractor类提供了一个方法 getText() 。此方法从文档中获取所有文本。
这是Java程序中可以用来读取数据的有用方法。
让我们看一个从 doc 文件中提取文本的示例。
Apache POI Word提取文本示例
package com.yiidian;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import java.io.FileInputStream;
public class ReadingText {
public static void main(String[] args) {
try(FileInputStream fis = new FileInputStream("yiidian.docx")) {
XWPFDocument file = new XWPFDocument(OPCPackage.open(fis));
XWPFWordExtractor ext = new XWPFWordExtractor(file);
System.out.println(ext.getText());
}catch(Exception e) {
System.out.println(e);
}
}
}
word文档内容如下:
控制台输出结果为:
热门文章
优秀文章