本文将介绍如何使用spire.pdf for java提取/读取pdf文档的文本内容。
import com.spire.pdf.pdfdocument;
import com.spire.pdf.pdfpagebase;
import java.io.*;
public class extract_text {
public static void main(string[] args) {
//创建pdfdocument实例
pdfdocument doc = new pdfdocument();
//加载pdf文件
doc.loadfromfile("test.pdf");
//创建stringbuilder实例
stringbuilder sb = new stringbuilder();
pdfpagebase page;
//遍历pdf页面,获取每个页面的文本并添加到stringbuilder对象
for(int i= 0;i
pdf源文档如下:
提取结果: