c#/vb.net 提取 pdf 中的表格-凯发线上登陆下载网址

c#/vb.net 提取 pdf 中的表格

spire.pdf for .net 提供了 pdftable 和 pdfgrid 两个类，可用于在 pdf 格式的文档中绘制表格，操作的元素包括文本、图片、嵌套表格等；对文档中已有的表格，则可以通过 pdftableextractor 类提供的 extracttable() 方法来提取。本篇文章，将以 c# 和 vb.net 代码为例来介绍如何提取 pdf 中的表格。

安装 spire.pdf for .net

首先，您需要添加 spire.pdf for .net 包中包含的 dll 文件作为 .net 项目中的引用。dll 文件可以从此链接下载或通过安装。

pm> install-package spire.pdf

提取表格

代码中涉及到的主要类及方法归纳如下表，供参考：

类型	描述
pdfdocument class	represents a pdf document model.
pdfdocument.loadfromfile(string filename) method	loads a pdf document.
pdftableextractor class	represents the pdf table extractor.
pdftable class	defines a pdf table.
pdftableextractor. extracttable(int pageindex) method	extracts table from page.
pdftable.gettext(int rowindex,int columnindex) method	gets text in cell.
file.writealltext() method	saves extracted text in table to a .txt file.

提取表格主要从以下几个步骤来实现：

实例化 pdfdocument 类的对象，并调用 loadfromfile() 方法加载pdf测试文档。
通过 pdftableextractor.extracttable(int pageindex) 方法提取指定页面中的表格。
通过 pdftable.gettext(int rowindex, int columnindex) 方法将获取具体行和列中的单元格文本内容。
将获取的表格内容保存为 .txt 文件。

c#
vb.net

using spire.pdf;
using spire.pdf.utilities;
using system.io;
using system.text;
namespace extracttable
{
    class program
    {
        static void main(string[] args)
        {
            //实例化pdfdocument类的对象
            pdfdocument pdf = new pdfdocument();
            //加载pdf文档
            pdf.loadfromfile("sample.pdf");
            //创建stringbuilder类的对象
            stringbuilder builder = new stringbuilder();
            //实例化pdftableextractor类的对象
            pdftableextractor extractor = new pdftableextractor(pdf);
            //声明pdftable类的表格数组
            pdftable[] tablelists;
            //遍历pdf页面
            for (int pageindex = 0; pageindex < pdf.pages.count; pageindex  )
            {
                //从页面提取表格
                tablelists = extractor.extracttable(pageindex);
                //判断表格列表是否为空
                if (tablelists != null && tablelists.length > 0)
                {
                    //遍历表格
                    foreach (pdftable table in tablelists)
                    {
                        //获取表格中的行和列数
                        int row = table.getrowcount();
                        int column = table.getcolumncount();
                        //遍历表格行和列 
                        for (int i = 0; i < row; i  )
                        {
                            for (int j = 0; j < column; j  )
                            {
                                //获取行和列中的文本
                                string text = table.gettext(i, j);
                                //写入文本到stringbuilder容器
                                builder.append(text   " ");
                            }
                            builder.append("\r\n");
                        }
                    }
                }
            }
            //保存提取的表格内容为.txt文档
            file.writealltext("extractedtable.txt", builder.tostring());
        }
    }
}

imports spire.pdf
imports spire.pdf.utilities
imports system.io
imports system.text
namespace extracttable
	class program
		private shared sub main(args as string())
			'实例化pdfdocument类的对象
			dim pdf as new pdfdocument()
			'加载pdf文档
			pdf.loadfromfile("sample.pdf")
			'创建stringbuilder类的对象
			dim builder as new stringbuilder()
			'实例化pdftableextractor类的对象
			dim extractor as new pdftableextractor(pdf)
			'声明pdftable类的表格数组
			dim tablelists as pdftable()
			'遍历pdf页面
			for pageindex as integer = 0 to pdf.pages.count - 1
				'从页面提取表格
				tablelists = extractor.extracttable(pageindex)
				'判断表格列表是否为空
				if tablelists isnot nothing andalso tablelists.length > 0 then
					'遍历表格
					for each table as pdftable in tablelists
						'获取表格中的行和列数
						dim row as integer = table.getrowcount()
						dim column as integer = table.getcolumncount()
						'遍历表格行和列 
						for i as integer = 0 to row - 1
							for j as integer = 0 to column - 1
								'获取行和列中的文本
								dim text as string = table.gettext(i, j)
								'写入文本到stringbuilder容器
								builder.append(text & convert.tostring(" "))
							next
							builder.append(vbcr & vblf)
						next
					next
				end if
			next
			'保存提取的表格内容为.txt文档
			file.writealltext("extractedtable.txt", builder.tostring())
		end sub
	end class
end namespace

表格提取结果：

c#/vb.net 提取 pdf 中的表格

申请临时 license

如果您希望删除结果文档中的评估消息，或者摆脱功能限制，请该email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用javascript。获取有效期 30 天的临时许可证。

c#/vb.net 提取 pdf 中的表格-凯发线上登陆下载网址

c#/vb.net 提取 pdf 中的表格

安装 spire.pdf for .net

提取表格

申请临时 license

相关文章