Apache POI Word 提取文本

为了从word文档中提取文本,XWPFWordExtractor类提供了一个方法 getText() 。此方法从文档中获取所有文本。

这是Java程序中可以用来读取数据的有用方法。

让我们看一个从 doc 文件中提取文本的示例。

Apache POI Word提取文本示例

package com.yiidian;

import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

import java.io.FileInputStream;

public class ReadingText {
    public static void main(String[] args) {  
         try(FileInputStream fis = new FileInputStream("yiidian.docx")) {
             XWPFDocument file   = new XWPFDocument(OPCPackage.open(fis));
             XWPFWordExtractor ext = new XWPFWordExtractor(file);
             System.out.println(ext.getText());  
         }catch(Exception e) {  
             System.out.println(e);  
         }  
    }  
}  

word文档内容如下:

控制台输出结果为:

热门文章

优秀文章