亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

使用Python + fitz + PIL+ pytesseract 解析

系統(tǒng) 4086 0

之前想了很多種辦法來(lái)解析PDF文件內(nèi)容(Python 讀取PDF文件),一般針對(duì)電子版word或者Excel轉(zhuǎn)化為PDF的PDF文件具有不錯(cuò)的效果,但是依然不能解析圖片(圖片中文字)內(nèi)容,如果PDF是掃描版呢,那種方法就不行了。

所以我又想了另一個(gè)辦法,就是先把PDF文件轉(zhuǎn)化為圖片,然后再將圖片進(jìn)行OCR識(shí)別,得到最終PDF的內(nèi)容。

1 把PDF轉(zhuǎn)化為圖片

可以參考博文:windows下用Python把pdf文件轉(zhuǎn)化為圖片

代碼如下:

            
              import fitz

PDF_path = "你的PDF文件路徑"
imgs_save_path = "圖片保存文件夾路徑"

def PDF_to_imgs(PDF_path, save_path):
    # 打開(kāi)PDF文件,生成一個(gè)對(duì)象
    doc = fitz.open(PDF_path)

    # 將PDF文件的每一頁(yè)都轉(zhuǎn)化為圖片
    for pg in range(doc.pageCount):
        page = doc[pg]
        rotate = int(0)
        # 每個(gè)尺寸的縮放系數(shù)為2,這將為我們生成分辨率提高4倍的圖像。
        zoom_x = 2
        zoom_y = 2
        trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pm = page.getPixmap(matrix=trans, alpha=False)
        pm.writePNG(save_path + '%s.png' % pg)
        
                
PDF_to_imgs(PDF_path, imgs_save_path)          
            
          

2 將圖片進(jìn)行OCR識(shí)別

pytesseract模塊的安裝參考博文:基于python的OCR字符識(shí)別

代碼如下:

            
              import os
import pytesseract
 
from PIL import Image

imgs_save_path = "C:\\Users\\Administrator\\Desktop\\PDF\\"
txts_save_path = "C:\\Users\\Administrator\\Desktop\\TXT\\"
        
def img_to_txt(imgs_path, save_path):
    # 將文件夾下的所有圖片進(jìn)行OCR識(shí)別
    for files, _, file_names in os.walk(imgs_path):
        for file_name in file_names:
            image = Image.open(files + file_name)
            # chi_sim 是中文識(shí)別包,equ 是數(shù)學(xué)公式包,eng 是英文包
            content = pytesseract.image_to_string(image, lang="chi_sim")
            txt_name = file_name.split(".")[0] + ".txt"
            with open(save_path + txt_name, "w") as f:
                f.write(content)


img_to_txt(imgs_save_path, txts_save_path)          
            
          

?


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 日本一级免费 | 国产一区二区精品久久 | 久久久久久久久免费视频 | 日本大蕉香蕉大视频在线观看 | 色婷婷影视 | 国产高清精品一级毛片 | 欧美激情在线观看一区二区三区 | 亚洲国产日韩欧美mv | 欧美一级成人毛片影院 | 国产毛片精品 | 成人久久| 男人的天堂黄 | 伊人久久大香线焦综合四虎 | 国产精品久久久久久久久久久搜索 | 亚洲精品一区二区伦理 | 久久爱噜噜噜噜久久久网 | 国产精品久久久久久久y | 九九中文字幕 | 国产日韩欧美亚洲精品95 | 色综合久久88一加勒比 | 国产福利在线观看永久免费 | 久久青草91免费观看 | 香蕉视频网站在线观看 | 国产精品二 | 欧美性理论片在线观看片免费 | 91在线精品亚洲一区二区 | 日日操日日射 | 国产看片视频 | 国语偷拍视频在线观看 | 亚拍精品一区二区三区 | 亚洲专区在线视频 | 亚洲精品国自产拍影院 | 青青久草 | 国产精彩视频 | 亚洲四虎 | a一级毛片视频免费看 | 曰曰鲁夜夜免费播放视频 | 色婷婷激婷婷深爱五月小蛇 | 在线操| 国产在线自在拍91精品黑人 | 国产精品久久久99 |