tabula-pyがpdf上の表をテキスト抽出できる優秀ツールであることは下記で述べたとおり。
![](https://done.sakura.ne.jp/technote/wp-content/uploads/2022/11/tablapy-160x90.png)
【Python】PDFの表テーブル読込ライブラリ(pdf2txt、tabula-py)使い方・使用感
PDF読み込みの必要が生じたので使ってみたメモ。どちらも用途をうまく使い分けるとかなり使えそう。 1.pdf2txt.py pdf2txt.pyはPDFをテキスト化してくれるもの。特にテーブル読み取り用というわけではないがテーブル内部の文字...
![](https://done.sakura.ne.jp/technote/wp-content/uploads/2022/11/dataframe-160x90.png)
【Python】tabula.read_pdfでDataFrameにどんなデータが取得されるか
tabula-pyを使って複数の表が記載されたpdfファイルをDataFrameへ読み込んだ時どんな感じになっているのか、VSCodeでステップ実行したときのメモ。 表が複数掲載されたpdfファイルを仮に用意。今回は以下のようなもの。 下記...
だが、値を抽出するといってもOCR処理ができるというわけではなく、あくまでpdf上の「テキストとして認識できるデータ」が対象。pdfの裏側についてはここでは深追いしない。
試しに紙をスキャンして生成したpdfをtabulaに読み込ませ、print
してみる。
pdffile1="d:\複数テーブル_scan.pdf" dfs = tabula.read_pdf(pdffile1, lattice=True , pages = 'all') print(dfs[0])
結果
IndexError: list index out of range
dfs
に何も取得できていないため、dfs[0]
はインデックスエラーとなる。