【Python】tabula.read_pdfで読み込めるpdfと読み込めないpdf(IndexError: list index out of range)

Python

tabula-pyがpdf上の表をテキスト抽出できる優秀ツールであることは下記で述べたとおり。

【Python】PDFの表テーブル読込ライブラリ(pdf2txt、tabula-py)使い方・使用感
PDF読み込みの必要が生じたので使ってみたメモ。どちらも用途をうまく使い分けるとかなり使えそう。 1.pdf2txt.py pdf2txt.pyはPDFをテキスト化してくれるもの。特にテーブル読み取り用というわけではないがテーブル内部の文字...
【Python】tabula.read_pdfでDataFrameにどんなデータが取得されるか
tabula-pyを使って複数の表が記載されたpdfファイルをDataFrameへ読み込んだ時どんな感じになっているのか、VSCodeでステップ実行したときのメモ。 表が複数掲載されたpdfファイルを仮に用意。今回は以下のようなもの。 下記...

だが、値を抽出するといってもOCR処理ができるというわけではなく、あくまでpdf上の「テキストとして認識できるデータ」が対象。pdfの裏側についてはここでは深追いしない。

試しに紙をスキャンして生成したpdfをtabulaに読み込ませ、printしてみる。

pdffile1="d:\複数テーブル_scan.pdf"
dfs = tabula.read_pdf(pdffile1, lattice=True , pages = 'all')
print(dfs[0])

結果

IndexError: list index out of range

dfsに何も取得できていないため、dfs[0]はインデックスエラーとなる。

独習Python

独習Python

Amazon

タイトルとURLをコピーしました