可将PDF转为Word文件的Python库

商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

　　《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的是一个可将PDF转为Word的Python库pdf2docx。
　　基于PyMuPDF提取文本、图片、矢量等原始数据基于规则解析章节、段落、表格、图片、文本等布局及样式基于pythondocx创建Word文档
　　主要功能
　　解析和创建页面布局页边距章节和分栏（目前最多支持两栏布局）页眉和页脚〔TODO〕
　　解析和创建段落OCR文本〔TODO〕水平（从左到右）或竖直（自底向上）方向文本字体样式例如字体、字号、粗斜体、颜色文本样式例如高亮、下划线和删除线列表样式〔TODO〕外部超链接段落水平对齐方式（左右居中分散对齐）及前后间距
　　解析和创建图片内联图片灰度RGBCMYK等颜色空间图片带有透明通道图片浮动图片（衬于文字下方）
　　解析和创建表格边框样式例如宽度和颜色单元格背景色合并单元格单元格垂直文本隐藏部分边框线的表格嵌套表格
　　支持多进程转换
　　pdf2docx同时解析出了表格内容和样式，因此也可以作为一个表格内容提取工具。
　　限制目前暂不支持扫描PDF文字识别仅支持从左向右书写的语言（因此不支持阿拉伯语）不支持旋转的文字基于规则的解析无法保证100还原PDF样式
　　示例
　　安装pipinstallpdf2docx
　　更新pipinstallupgradepdf2docx
　　我们可以使用Converter类或包装方法parse（）将所有指定的pdf页面转换为docx。如果pdf文件包含大量页面，则支持批量处理。转换所有页面frompdf2docximportConverterpdffilepathtosample。pdfdocxfilepathtosample。docxconvertpdftodocxcvConverter（pdffile）cv。convert（docxfile）allpagesbydefaultcv。close（）
　　另一种使用parse（）的方法：frompdf2docximportparsepdffilepathtosample。pdfdocxfilepathtosample。docxconvertpdftodocxparse（pdffile，docxfile）转换指定页面
　　指定页面范围start（如果省略则从第一页开始）和end（如果省略则到最后一页）：convertfromthesecondpagetotheend（bydefault）cv。convert（docxfile，start1）convertfromthefirstpage（bydefault）tothethird（end3，excluded）cv。convert（docxfile，end3）convertfromthesecondpageandthethirdcv。convert（docxfile，start1，end3）
　　或者，通过以下方式设置单独的页面pages：convertthefirst，thirdand5thpagescv。convert（docxfile，pages〔0，2，4〕）
　　END
　　开源协议：GPL3。0
　　开源地址：https：github。comdothinkingpdf2docx

散文田野近处的石板路白洁无暇，远处的山峰一簇簇就像海市的水泥森林。一路有笑逐颜开的小姑娘小伙，一个手持桃花，一个手持竹竿。在阳光和煦中，一路踱着步，在山上，尽情地享受这份恬静与自然和谐……CCTV5直播！国足决战阿曼首发曝光武磊沦为替补，2大归化被北京时间11月11日晚23点，国足12强赛即将迎来第5场比赛，对手是阿曼队，这是两队时隔20年再度在世预赛碰面，央视体育频道CCTV5将会现场直播。国足在11月7日抵达阿……久违，女排最美队长魏秋月露面，爆照英姿飒爽，产子后魅力不减最近前中国女排国家队的最美队长魏秋月，再次在自己的社交媒体爆照，向关心她的球迷透露自己动态，大家都知道自从去年魏秋月生下宝宝之后就很少露面了，大多数时候都是陪着孩子一起成长，所……朱婷休战，金软景加盟上海！这两位顶级主攻，还有机会隔网对轰吗北京时间2021年11月20日星期六消息。新赛季的女排超级联赛，11月25日就将打响。上海女排厉兵秣马，虽然走了卞雨倩，但是老将金软景重新归来，上海女排在刚刚斩获全国锦标赛冠军……不容易出错的冬季穿搭全在这，想要快速出门的小姐姐，一定要码住Hi，这里是搭搭，一个专注穿衣打扮，专属你美丽的时尚达人！冬天穿衣其实真的没有大家想象中的那么难，也没有那么复杂，想要打造出一套快速出门又不会出错的造型，基础款基础……风化陨石的大敌一、物理风化几十亿年以来，太空环境中的陨石抵御了大量风化作用。它们远离水和氧气等的破坏性影响。但地球对陨石来说是个完全陌生的环境。在正常的地表条件下，如果不采取措施保护陨……溺爱不是爱，是对孩子的摧残过分的溺爱、纵容孩子就如同杀子。这话一点没错，今天遇到一件这样的事。我们药店今天是会员日，大伙特意用五颜六色的气球装扮卖场，开门半小时左右，进来一位年轻漂亮的女的，手牵着……紧急叫停！腾讯道歉近日，不少哔哩哔哩（B站）上的UP主发视频质疑腾讯黎明计划，指出创作者没有拿到应得入驻金、MCN恶意举报账号，或在入驻时被索要创作者在第三方平台账号和密码等情况。据一位游……左手化妆品右手白酒，民办教师携环亚科技冲刺A股民办教师的美容帝国。作者刘钦文编辑丨武丽娟来源野马财经人们对美的追求从未停止。古代时大家闺秀讲究要描眉画眼，现代时，可爱、性感、甜美等化妆风格层出不穷。……CBA三消息辽宁签下内线小将，周琦谈拒绝大合同，青岛后来居上大家好呀，我是北柠，各位小伙伴们要养成先赞后看的习惯哦！辽宁队现在是联盟中的一支顶级强队，一般来说，CBA中的强队都有一个特点，那就是很少引进自由市场或者其他球队的球员，……中国最大私人豪宅，历经300年建成，比故宫大10万，处处是珍提到故宫，大家都会想到庄严、壮观这类的词。故宫作为古代帝王的住处，宫殿林立，富丽堂皇，普天之下，还能有谁的家宅，能与之相提并论呢？图虫：生活多美好但国内就有一……我国数字货币爆发，全球却只有10央行着手研发，美国为何慌了阿美是扒了墙的庙慌了S（神）儿了！你有多久没用过现金了？数字支付方式，已经在悄然间改变了我们的生活方式。如今，数字人（M）民币更是让我们多了一种全新的支付选择。可谁能想到……

<<<<<<－>>>>>>

盘点支持100W超级快充的荣耀手机，共5款【1】荣耀Magic4Pro搭载全新一代骁龙8旗舰处理器，采用三星4nm制程工艺，图像处理能力、AI性能等再次进化，拥有卓越的性能，但功耗也高，发热非常严重正面是一……足坛悲喜之夜！3大豪门出战，德甲造2大惨案，那不勒斯领先12值此中国新年之际，欧洲5大联赛继续进行，德甲联赛时隔68天之后重启，英超第21轮，西甲第18轮和意甲第19轮全面打响，利物浦，切尔西，那不勒斯，马竞等豪门球队纷纷出战，有喜有忧……几种催老剂藏在日常食物中尽量少碰今天16时30分我们一起迎来二十四节气中最后一个节气大寒一年终章至此轮回每个人都希望老得慢一点，不过生活中，一些催老剂就藏在我们的饮食之中，……吃完鸡蛋后，不要立马吃以下几种食物，不妨看看你吃对了没有健康有知识导语：大家肯定都知道，食物之间是相生相克的，因为不同食物中都含有各自的营养元素和营养物质。就连鸡蛋亦是如此，吃鸡蛋时也是有一定禁忌的，有些食物不能与鸡蛋搭配在一……澳大利亚宇航员带到空间站点击关注星星博士接收最快蓝军资讯赞赏支持喜欢作者留言检索翻译报告发送数字口令消息获取下载地址链接持续更新。。。。。。欢迎关注。。。。。。敬请期待。。。。。……鉴于目前形势，陈婉婷已不适宜坚持出任女足主教练自10月15日女足主教练竞聘开始，距今已经三周过去了！当时足协公告说：一周内出结果！目前来看，依然难产！据内部人士消息，目前足协内部分为两派，一派是朱广沪为首的支持肇俊哲……饮水烹饪两不误A。O。史密斯冷热即饮净水机提速健康生活提起家庭团聚时的美食，想必每个人都能滔滔不绝地讲上个把钟头。但真要是把团圆宴做得是色香味俱全，营养又丰盛，新鲜且健康的食材肯定是重中之重。不过，有一点也不可忽视那就是水。煮饭、……梅西C罗哀悼球王！梅西晒与贝利合照C罗他是无数人的灵感来源球王贝利去世，享年82岁。当天，梅西在社交媒体上晒照悼念，他在配文写道：安息吧贝利。C罗也在社交媒体上发文对贝利进行悼念。C罗写道：我向全巴西、特别是贝利的家人表示……戴尔新款U4323QE显示器开始上市43英寸4K窄边框屏IT之家2月1日消息，戴尔新款U4323QE显示器现已在戴尔美国官网上市，43英寸4K大屏，售价1309。99美元（当前约8856元人民币）。IT之家了解到，戴尔新款U4……撩到男人腿软的情话1老牛在吗？嫩草想你了2。你有脾气算什么？我有耐心3。我长不高的原因是因为迷你4。我中毒了要你亲热解毒5。表白要一步到位，你好，合葬吗？6。余生，……大理蝴蝶泉边好风光来源：【云南日报】党建引领促发展，全员营销齐发力，春节期间游客特别火爆。日前，大理旅游集团蝴蝶泉公园分公司党支部书记、总经理马良敏向记者介绍，公司坚持党建引领，发挥党员先……金毛狗脊，补肾止血，治疗输卵管不通，堪称一绝，见到请珍惜金毛狗脊，听起来像是金毛的脊梁，很血腥的场面浮现在脑海中。但其实狗脊是国家重点保护植物，对于止血止痛，补益肝肾，治疗输卵管堵塞，更有妙处。临床上，输卵管不通，月经淋漓不尽……

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网