C# 实现将 PDF 转文本的功能-eolink官网

C# 实现将 PDF 转文本的功能

更新

2014年2月27日：这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。

这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本（1.8.4）。可以从 http://squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下载包含所有依赖内容的完整项目（要消除依赖关系有点棘手）。

如何解析 PDF 文件

在.NET中从PDF文件里提取文本的几种主要方法有:

Microsoft 的 IFilter 接口和 Adobe 的 IFilter 实现；

iTextSharp；

PDFBox。

不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。

Adobe PDF IFilter

为了使用 IFilter 接口来解析 PDF 文件，你需要：

Windows 2000 或者后续版本

Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])

IFilter COM 封装类 [dotlucene.net]

样例代码：

using IFilter;

// ...

public static string ExtractTextFromPdf(string path) {

return DefaultParser.Extract(path);

}

缺点：

使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。

需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案，会很痛苦。

iTextSharp

iTextSharp（http://sourceforge.net/projects/itextsharp/）是一个 Java 的PDF 操作库 iText（http://itextpdf.com/）的.NET输出。它主要着眼于编辑PDF而不是阅读，但它当然也支持从PDF中提取文本（尽管有点大材小用）。

例程:

using iTextSharp.text.pdf;

using iTextSharp.text.pdf.parser;

// ...

public static string ExtractTextFromPdf(string path)

{

using (PdfReader reader = new PdfReader(path))

{

StringBuilder text = new StringBuilder();

for (int i = 1; i <= reader.NumberOfPages; i++)

{

text.Append(PdfTextExtractor.GetTextFromPage(reader, i));

}

return text.ToString();

}

信用证: 成员号 10364982

缺点：

需要许可证（如果你不喜欢 AGPL许可证的话）

PDFBox

PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用（参见LucenePDFDocument）。

幸运的是，PDFBox有一个使用IKVM.NET开发的.NET版本（只需访问PDFBox下载页）。

在.NET中使用PDFBox需要引用：

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

并将下列文件复制到bin文件夹下：

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

使用PDFBox解析PDF十分简单：

using org.apache.pdfbox.pdmodel;

using org.apache.pdfbox.util;

// ...

private static string ExtractTextFromPdf(string path)

{

PDDocument doc = null;

try {

doc = PDDocument.load(path)

PDFTextStripper stripper = new PDFTextStripper();

return stripper.getText(doc);

}

finally {

if (doc != null) {

doc.close();

}

编译后的大小加起来差不多有18MB：

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

速度还可以：解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

感谢bobrien100提供的改进建议。

缺点：

IKVM.NET依赖 (18 MB)

速度（尤其是IKVM.NET的启动时间）

Flask接口签名sign原理与实例代码浅析

279 2022-06-16

C# 实现将 PDF 转文本的功能

多平台统一管理软件接口，如何实现多平台统一管理软件接口

Flask接口签名sign原理与实例代码浅析

java中的接口是类吗

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

软件接口设计怎么做？前后端分离软件接口设计思路

接口管理平台推荐，几大接口管理平台总有一款适合你！