在 pdf 文档中,通过使用鲜明的颜色来突出显示重要文本是一种常用内容导航和强调方法。特别是在较长的 pdf 文档中,强调关键信息有助于读者快速理解文档内容,从而提高阅读效率。而利用 python 程序可以轻松快捷地执行突出显示文本的操作,提升 pdf 文档创建及修改的效率。本文将介绍如何使用 spire.pdf for python 通过 python 程序在 pdf 文档中查找并突出显示文本。
安装 spire.pdf for python
本教程需要用到 spire.pdf for python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 vs code 中。
pip install spire.pdf
如果您不确定如何安装,请参考此教程:如何在 vs code 中安装 spire.pdf for python
用 python 查找并突出显示 pdf 中的指定文本
利用 spire.pdf for python,用户可以使用 pdfpagebase.findtext() 方法查找一个 pdf 页面上出现的所有特定文本,并使用 applyhighlight() 方法对出现的文本应用强调颜色。下面是使用 spire.pdf for python 高亮显示指定文本的示例:
- 创建一个 pdfdocument 类的对象,并使用 pdfdocument.loadfromfile() 方法加载 pdf 文档。
- 循环遍历文档中的页面。
- 使用 pdfdocument.pages.get_item() 方法获取一个页面。
- 使用 pdfpagebase.findtext() 方法查找页面中指定文本的所有出现位置。
- 循环遍历查找到的所有文本,并使用 applyhighlight() 方法为查找到的每个文本应用强调颜色。
- 使用 pdfdocument.savetofile() 方法保存文档。
- python
from spire.pdf import *
from spire.pdf.common import*
# 创建一个pdfdocument类对象并加载pdf文档
pdf = pdfdocument()
pdf.loadfromfile("示例.pdf")
# 循环遍历pdf文档中的页面
for i in range(pdf.pages.count):
# 获取一个页面
page = pdf.pages.get_item(i)
# 查找页面上特定文本的所有出现位置
result = page.findtext("云服务器", textfindparameter.none)
# 突出显示所有查找到的文本
for text in result.finds:
text.applyhighlight(color.get_cyan())
# 保存文档
pdf.savetofile("output/查找并突出显示.pdf")
查找并突出显示 pdf 页面指定区域的特定文本
除了在整个 pdf 页面上查找并突出显示指定的文本之外,spire.pdf for python 还支持通过将 rectanglef 实例作为参数传递给 pdfpagebase.findtext() 方法,从而在页面的指定区域内查找并突出显示指定的文本。具体操作步骤如下:
- 创建一个 pdfdocument 类的对象,并使用 pdfdocument.loadfromfile() 方法加载 pdf 文档。
- 使用 pdfdocument.pages.get_item() 方法获取文档的第一页。
- 创建 rectanglef 实例。
- 使用 pdfpagebase.findtext() 方法在第一页的指定矩形区域内查找指定文本的所有出现位置。
- 循环遍历查找到的文本,并使用 applyhighlight() 方法对每个查找到的文本应用强调颜色。
- 使用 pdfdocument.savetofile() 方法保存文档。
- python
from spire.pdf.common import *
from spire.pdf import *
# 创建pdfdocument类的对象并加载pdf文档
pdf = pdfdocument()
pdf.loadfromfile("示例.pdf")
# 获取页面
pdfpagebase = pdf.pages.get_item(0)
# 定义一个矩形区域
rctg = rectanglef(0.0, 0.0, pdfpagebase.actualsize.width, 300.0)
# 在矩形区域中查找指定文本的所有出现位置
findcollection = pdfpagebase.findtext(rctg, "云服务器", textfindparameter.ignorecase)
# 循环遍历查找到的文本
for find in findcollection.finds:
# 突出显示每个查找到的文本
find.applyhighlight(color.get_green())
# 保存文档
pdf.savetofile("output/区域查找并突出显示.pdf")
pdf.close()
通过正则表达式查找并突出显示 pdf 中的指定文本
有时需要突出显示的文本并不完全相同,但具有相似的特征。在这种情况下,正则表达式来可以用来进行更加灵活的文本查找。用户可以通过将 textfindparameter.regex 作为参数传递给 pdfpagebase.findtext() 方法,从而在 pdf 文档中使用正则表达式来查找文本。具体步骤如下:
- 创建一个 pdfdocument 类的对象,并使用 pdfdocument.loadfromfile() 方法加载 pdf 文档。
- 指定正则表达式。
- 使用 pdfdocument.pages.get_item() 方法获取一个页面。
- 使用 pdfpagebase.findtext() 方法在页面上使用正则表达式查找匹配的文本。
- 循环遍历匹配的文本,并使用 applyhighlight() 方法对文本应用突出显示的颜色。
- 使用 pdfdocument.savetofile() 方法保存文档。
- python
from spire.pdf import *
from spire.pdf.common import *
# 创建一个pdfdocument类的对象并加载pdf文档
pdf = pdfdocument()
pdf.loadfromfile("示例.pdf")
# 指定匹配数字以及百分数的正则表达式
regex = r'\d (?:\.\d )?%?'
# 获取文档第二页
page = pdf.pages.get_item(1)
# 使用指定的正则表达式在页面上查找匹配的文本
result = page.findtext(regex, textfindparameter.regex)
# 高亮显示所有匹配的文本
for text in result.finds:
text.applyhighlight(color.get_deeppink())
# 保存文档
pdf.savetofile("output/正则表达式查找并突出显示.pdf")
申请临时 license
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用javascript。获取有效期 30 天的临时许可证。