Python批量合并PDF,拿来就用
>首页 -> 社会专题 -> 硬件网络 2020-05-02 来源:微信 作者:陈熹 【】 浏览:715

大家好,今天分享一个实用的办公脚本:将多个PDF合并为一个PDF,例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF

如果换成你操作的话,是不是打开百度搜索:PDF合并,然后去第三方网站操作,可能会收费不说还担心文件泄漏,现在有请Python出场,简单快速,光速合并,拿走就用!

首先导入需要的库和路径设置

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
if __name__ == '__main__':
   # 设置存放多个pdf文件的文件夹
   dir_path = r'C:\Scientific Research\Knowladge\Ophthalmology\Chinese Ophthalmology'
   # 目标文件的名字
   file_name = "中华眼科学(第3版)合并版.pdf"

接着获取所有pdf文件的绝对路径,这里需要利用os库中的os.walk遍历文件和os.path.join拼接路径

for dirpath, dirs, files in os.walk(dir_path):
   print(dirpath)
   print(files)
# 结果返回当前路径、当前路径下文件夹,并以列表返回所有文件

建议直接将需要合并的pdf放在一个文件夹,这样就无需再对文件后缀进行判断,包装成函数后如下:

def GetFileName(dir_path):
   file_list = [os.path.join(dirpath, filesname) \
                for dirpath, dirs, files in os.walk(dir_path) \
                for filesname in files]
   return file_list
调用该函数的结果

现在建立合并PDF的函数

def MergePDF(dir_path, file_name):
   # 实例化写入对象
   output = PdfFileWriter()
   outputPages = 0
   # 调用上一个函数获取全部文件的绝对路径
   file_list = GetFileName(dir_path)

   for pdf_file in file_list:
       print("文件:%s" % pdf_file.split('\\')[-1], end=' ')

       # 读取PDF文件
       input = PdfFileReader(open(pdf_file, "rb"))
       # 获得源PDF文件中页面总数
       pageCount = input.getNumPages()
       outputPages += pageCount
       print("页数:%d" % pageCount)
       # 分别将page添加到输出output中
       for iPage in range(pageCount):
           output.addPage(input.getPage(iPage))
   print("\n合并后的总页数:%d" % outputPages)
   # 写入到目标PDF文件
   print("PDF文件正在合并,请稍等......")
   with open(os.path.join(dir_path, file_name), "wb") as outputfile:
       # 注意这里的写法和正常的上下文文件写入是相反的
       output.write(outputfile)
   print("PDF文件合并完成")

可以看到虽然待合并的PDF文件比较大,但是依旧快速的合并成功!

最后附上完整代码,只需将代码中PDF的路径和文件名修改即可使用!

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def GetFileName(dir_path):
file_list = [os.path.join(dirpath, filesname) \
for dirpath, dirs, files in os.walk(dir_path) \
for filesname in files]
return file_list

def MergePDF(dir_path, file_name):
output = PdfFileWriter()
outputPages = 0
file_list = GetFileName(dir_path)
for pdf_file in file_list:
print("文件:%s" % pdf_file.split('\\')[-1], end=' ')
# 读取PDF文件
input = PdfFileReader(open(pdf_file, "rb"))
# 获得源PDF文件中页面总数
pageCount = input.getNumPages()
outputPages += pageCount
print("页数:%d" % pageCount)
# 分别将page添加到输出output中
for iPage in range(pageCount):
output.addPage(input.getPage(iPage))
print("\n合并后的总页数:%d" % outputPages)
# 写入到目标PDF文件
print("PDF文件正在合并,请稍等......")
with open(os.path.join(dir_path, file_name), "wb") as outputfile:
# 注意这里的写法和正常的上下文文件写入是相反的
output.write(outputfile)
print("PDF文件合并完成")

if __name__ == '__main__':
# 设置存放多个pdf文件的文件夹
dir_path = r'C:\Scientific Research\Knowladge\Ophthalmology\Chinese Ophthalmology'
# 目标文件的名字
file_name = "中华眼科学(第3版)合并版.pdf"
MergePDF(dir_path, file_name)
您看到此篇文章时的感受是:
Tags: 责任编辑:佚名
免责申明: 除原创及很少部分因网文图片遗失而补存外,本站不存储任何有版权的内容。你看到的文章和信息及网址索引均由机器采集自互联网,由于时间不同,内容可能完全不同,请勿拿本网内容及网址索引用于交易及作为事实依据,仅限参考,不会自行判断者请勿接受本站信息,本网转载,并不意味着赞同其观点或证实其内容的真实性.如涉及版权等问题,请立即联系管理员,我们会予以更改或删除,保证您的权利.对使用本网站信息和服务所引起的后果,本网站不作任何承诺.
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论:0条】 【关闭】 【返回顶部
更多
上一篇Python 操作 PDF 的几种方法 下一篇H3C应对园区联网监控需求
密码: (新用户注册)

最新文章

图片主题

热门文章

推荐文章

相关文章

便民服务

手机扫描

空间赞助

快速互动

论坛互动
讨论留言

有事联系

有哪个那个什么的,赶紧点这里给DOVE发消息

统计联系

MAIL:gnlt@Dovechina.com
正在线上:1360

版权与建议

任何你想说的