java读取word文档,提取标题和内容的实例-eolink官网

java读取word文档,提取标题和内容的实例

使用的工具为poi，需要导入的依赖如下

org.apache.poi

poi

3.17

org.apache.poi

poi-ooxml

3.17

org.apache.poi

poi-scratchpad

3.17

org.apache.poi

ooxml-schemas

1.1

org.apache.poi

poi-ooxml-schemas

3.17

我采用的分离方式是根据字体大小判断。寻找字体大小和下一段大小不同的段落，再一次判断第二段和后边的是否相同，相同则继续，不同则输出标题和内容。

因为有的文档中存在多个标题，所以我在开始加了判断，如果连续三个段落的字体大小递减则该段落跳过。

而且文章存在目录，经过测试发现目录的String中都包含了“HYPERLINK” 所以如果段落中包含该字符串则跳过。

代码如下：

package com.w.test;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStream;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.poi.POIXMLDocument;

import org.apache.poi.POIXMLTextExtractor;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.extractor.WordExtractor;

import org.apache.poi.hwpf.usermodel.CharacterRun;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.openxml4j.opc.OPCPackage;

import org.apache.poi.poifs.filesystem.POIFSFileSystem;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import org.apache.poi.xwpf.usermodel.XWPFRun;

import com.example.model.Policy_content;

public class GetWord {

public static void main(String[] args) {

// TODO Auto-generated method stub

try {

List list = new ArrayList<>();

InputStream is = new FileInputStream(new File("文件路径")); //需要将文件路更改为word文档所在路径。

POIFSFileSystem fs = new POIFSFileSystem(is);

HWPFDocument document = new HWPFDocument(fs);

Range range = document.getRange();

CharacterRun run1 = null;//用来存储第一行内容的属性

CharacterRun run2 = null;//用来存储第二行内容的属性

int q=1;

for (int i = 0; i < range.numParagraphs()-1; i++) {

Paragraph para1 = range.getParagraph(i);// 获取第i段

Paragraph para2 = range.getParagraph(i+1);// 获取第i段

int t=i; //记录当前分析的段落数

String paratext1 = para1.text().trim().replaceAll("\r\n", ""); //当前段落和下一段

String paratext2 = para2.text().trim().replaceAll("\r\n", "");

run1=para1.getCharacterRun(0);

run2=para2.getCharacterRun(0);

if (paratext1.length() > 0&&paratext2.length() > 0) {

//这个if语句为的是去除大标题，连续三个段落字体大小递减就跳过

if(run1.getFontSize()>run2.getFontSize()&&run2.getFontSize()>range.getParagraph(i+2).getCharacterRun(0).getFontSize()) {

continue;

}

//连续两段字体格式不同

if(run1.getFontSize()>run2.getFontSize()) {

String content=paratext2;

run1=run2; //从新定位run1 run2

run2=range.getParagraph(t+2).getCharacterRun(0);

t=t+1;

while(run1.getFontSize()==run2.getFontSize()) {

//连续的相同

content+=range.getParagraph(t+1).text().trim().replaceAll("\r\n", "");

run1=run2;

run2=range.getParagraph(t+2).getCharacterRun(0);

t++;

}

if(paratext1.indexOf("HYPERLINK")==-1&&content.indexOf("HYPERLINK")==-1) {

System.out.println(q+"标题"+paratext1+"\t内容"+content);

i=t;

q++;

}

} catch (Exception e) {

e.printStackTrace();

}

补充知识：Java poi导入word文件提取内容

一、需求描述

java web项目从前台上传word格式文件，后台接收文件并提取word内容保存至数据库。

二、依赖jar包

这里操作的是maven项目，所有依赖jar包均可到maven仓库进行免费下载。具体如下：

三、后台代码

这里的java_web项目采用SpringMVC的内置文件上传方式进行接收解析，具体如下：

/**

* 提取word文件内容

* @param file

* @param request

* @return

* @throws IOException

* @throws IllegalStateException

@RequestMapping(value = "/getPapers", method = RequestMethod.POST, produces = { "text/html;charset=utf-8" })

@ResponseBody

private Object getPapers(@RequestParam("file") MultipartFile multfile，HttpServletRequest request) throws IllegalStateException, IOException {

// 获取文件名

String fileName = multfile.getOriginalFilename();

//判断是否为word类型文件

if (!fileName.endsWith(".doc") && !fileName.endsWith(".docx")) {

System.out.println("此文件不是word文件！");

}

//当前系统的临时文件地址

String realPath = request.getSession().getServletContext().getRealPath("/static/app/appkmbgszh/uploadFile");

// 用uuid作为文件名，防止生成的临时文件重复

String fileAdd = UUID.randomUUID().toString() + ".docx";

// 构建一个临时文件

File uploadFile = new File(realPath, fileAdd);

//将上传的MultipartFile格式文件转换为创建的新文件

multfile.transferTo(uploadFile);

//获取新文件的绝对路径

String filePath = uploadFile.getAbsolutePath();

String buffer = "";

jsONObject msg = new JSONObject();

try {

InputStream inIo = new FileInputStream(uploadFile);

//提取文本内容

if (fileName.endsWith(".doc")) {

WordExtractor ex = new WordExtractor(inIo);

buffer = ex.getText();

ex.close();

} else if (fileName.endsWith(".docx")) {

OPCPackage opcPackage = POIXMLDocument.openPackage(filePath);

POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);

buffer = extractor.getText();

extractor.close();

}

//删除上传存放的临时文件

uploadFile.delete();

msg.put("status", true);

msg.put("msg", buffer);

} catch (Exception e) {

e.printStackTrace();

msg.put("status", false);

msg.put("msg", "文件内容提取失败");

}

return retString(msg);

}

/**

* json格式化;

* @param ret

* @return

private String retString(JSONObject ret) {

String jsoStr = "";

try {

jsoStr = JSON.json(ret);

} catch (IOException e) {

e.printStackTrace();

return jsoStr;

}

return jsoStr;

}

Flask接口签名sign原理与实例代码浅析

1041 2022-11-18

java读取word文档,提取标题和内容的实例

Flask接口签名sign原理与实例代码浅析

java中的接口是类吗

vue项目接口域名动态的获取方法

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

java读取word文档,提取标题和内容的实例

微信扫一扫：分享

推荐文章

最近发表

热评文章