龙都娱乐»ASP.NET»C# 实现将 PDF 转文本的功能

C# 实现将 PDF 转文本的功能

来源:oschina 发布时间:2014-03-05 阅读次数:

 更新

  2014年2月27日: 这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。   这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本(1.8.4)。可以从 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下载包含所有依赖内容的完整项目(要消除依赖关系有点棘手)。

 如何解析 PDF 文件

  在.NET中从PDF文件里提取文本的几种主要方法有:
  1. Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;
  2. iTextSharp;
  3. PDFBox。
  不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。

 Adobe PDF IFilter

  为了使用 IFilter 接口来解析 PDF 文件,你需要:
  1. Windows 2000 或者后续版本
  2. Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])
  3. IFilter COM 封装类 [dotlucene.net]
  样例代码: using IFilter; // ... public static string ExtractTextFromPdf(string path) {   return DefaultParser.Extract(path);  }   缺点:
  • 使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。
  • 需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案,会很痛苦。
  •  iTextSharp

      iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一个 Java 的PDF 操作库 iText(http://itextpdf.com/) 的.NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。   例程: using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ...   public static string ExtractTextFromPdf(string path) {   using (PdfReader reader = new PdfReader(path))   {     StringBuilder text = new StringBuilder();     for (int i = 1; i <= reader.NumberOfPages; i++)     {         text.Append(PdfTextExtractor.GetTextFromPage(reader, i));     }     return text.ToString();   } }   信用证: 成员号 10364982   缺点:
  • 需要许可证(如果你不喜欢 AGPL许可证 的话)
  •  PDFBox

      PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。   幸运的是,PDFBox有一个使用IKVM.NET开发的.NET版本 (只需访问PDFBox下载页)。   在.NET中使用PDFBox需要引用:
    1. IKVM.OpenJDK.Core.dll
    2. IKVM.OpenJDK.SwingAWT.dll
    3. pdfbox-1.8.4.dll
      并将下列文件复制到bin文件夹下:
    1. commons-logging.dll
    2. fontbox-1.8.4.dll
    3. IKVM.OpenJDK.Util.dll
    4. IKVM.Runtime.dll
      使用PDFBox解析PDF十分简单: using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util; // ... private static string ExtractTextFromPdf(string path) {   PDDocument doc = null;   try {     doc = PDDocument.load(path)     PDFTextStripper stripper = new PDFTextStripper();     return stripper.getText(doc);   }   finally {     if (doc != null) {       doc.close();     }   } }   编译后的大小加起来差不多有18MB:
    1. IKVM.OpenJDK.Core.dll (4 MB)
    2. IKVM.OpenJDK.SwingAWT.dll (6 MB)
    3. pdfbox-1.8.4.dll (4 MB)
    4. commons-logging.dll (82 kB)
    5. fontbox-1.8.4.dll (180 kB)
    6. IKVM.OpenJDK.Util.dll (2 MB)
    7. IKVM.Runtime.dll (1 MB)
      速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。   感谢bobrien100提供的改进建议。   缺点:
  • IKVM.NET依赖 (18 MB)
  • 速度(尤其是IKVM.NET的启动时间)
  •  相关信息

    1. SquarePDF.NET上可以看到本文(和后续更新)。
      原文地址:http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C
    QQ群:WEB龙都娱乐官方群(515171538),验证消息:10000
    微信群:加小编微信 849023636 邀请您加入,验证消息:10000
    提示:更多精彩内容关注微信公众号:全栈龙都娱乐中心(fsder-com)
    PDF
    网友评论(共0条评论) 正在载入评论......
    理智评论文明上网,拒绝恶意谩骂 发表评论 / 共0条评论
    登录会员中心
    龙都娱乐