【Python】tabula.read_pdfで読み込めるpdfと読み込めないpdf（IndexError: list index out of range）

Python

2022.11.142024.06.23

tabula-pyがpdf上の表をテキスト抽出できる優秀ツールであることは下記で述べたとおり。

【Python】PDFの表テーブル読込ライブラリ（pdf2txt、tabula-py）使い方・使用感

PDF読み込みの必要が生じたので使ってみたメモ。どちらも用途をうまく使い分けるとかなり使えそう。１．pdf2txt.py pdf2txt.pyはPDFをテキスト化してくれるもの。特にテーブル読み取り用というわけではないがテーブル内部の文字...

【Python】tabula.read_pdfでDataFrameにどんなデータが取得されるか

tabula-pyを使って複数の表が記載されたpdfファイルをDataFrameへ読み込んだ時どんな感じになっているのか、VSCodeでステップ実行したときのメモ。表が複数掲載されたpdfファイルを仮に用意。今回は以下のようなもの。下記...

だが、値を抽出するといってもOCR処理ができるというわけではなく、あくまでpdf上の「テキストとして認識できるデータ」が対象。pdfの裏側についてはここでは深追いしない。

試しに紙をスキャンして生成したpdfをtabulaに読み込ませ、printしてみる。

pdffile1="d:\複数テーブル_scan.pdf"
dfs = tabula.read_pdf(pdffile1, lattice=True , pages = 'all')
print(dfs[0])

結果

IndexError: list index out of range

dfsに何も取得できていないため、dfs[0]はインデックスエラーとなる。

作者:山田祥寛
翔泳社

プロフェッショナルPython ソフトウェアデザインの原則と実践 impress top gearシリーズ

プロフェッショナルPython ソフトウェアデザインの原則と実践 impress top gearシリーズ

作者:Dane Hillard,武舎広幸
インプレス

仕事で役立つ! PDF 完全マニュアル[第2版]

仕事で役立つ! PDF 完全マニュアル[第2版]

作者:桑名由美
秀和システム

タイトルとURLをコピーしました