PDFテキスト抽出

PDFファイルからテキストを抽出してコピー・ダウンロード

ファイルはサーバーに送信されません

ファイルをドラッグ＆ドロップ、またはクリックして選択最大 20MB

詳しく読む — 関連ガイド記事

ガイド記事

OCRとは — 画像・PDFからテキストを抽出する仕組みと使い方

OCRの仕組みとPDFテキスト抽出との違いを解説。スキャン文書・ホワイトボード写真からブラウザだけでテキストを取り出す手順と精度を上げるコツ。

よくある質問

スキャンされたPDF（画像PDF）からもテキストを抽出できますか？

いいえ、テキストレイヤーのあるPDFのみ対応しています。スキャンした紙をPDF化したものや、画像として保存されたPDFからはテキストを抽出できません。

日本語のPDFからもテキストを抽出できますか？

はい、日本語を含むPDFのテキスト抽出に対応しています。

ファイルはサーバーに送信されますか？

いいえ、すべての処理はお使いのブラウザ内で完結します。ファイルが外部に送信されることはありません。

複数ページのPDFも対応していますか？

はい、すべてのページのテキストを一度に抽出できます。各ページの区切りは「--- ページ X ---」の形式で表示されます。

PDFツール一覧

すべて見る

PDF圧縮

PDFファイルのサイズをブラウザ内で圧縮。品質を選んで最適化。

使う →

PDF結合

複数のPDFファイルを1つに結合。順番を入れ替えて結合できます。

使う →

PDF→画像変換

PDFの各ページをJPEG・PNG画像に変換。複数ページ一括変換対応。

使う →

PDF分割

PDFを指定ページで分割。ページ範囲を自由に指定できます。

使う →

このツールについて

使い方

PDFファイルをドロップゾーンにドラッグ＆ドロップ（またはクリックして選択）
「テキストを抽出する」ボタンをクリック
ページごとに区切られたテキストがテキストエリアに表示される
「テキストをコピー」でクリップボードにコピー、または「テキストをダウンロード」で.txtファイルとして保存

このツールの特徴

✓全ページ一括抽出：複数ページのPDFも全ページのテキストをまとめて抽出し、「--- ページ X ---」の区切りつきで表示
✓コピー＆ダウンロードの2通り：ワンクリックでクリップボードにコピー、またはUTF-8のテキストファイルとして保存できる
✓日本語PDFに対応：日本語フォントが埋め込まれたPDFであれば、日本語テキストも正しく抽出できる
✓処理の進捗をリアルタイム表示：ページ数が多いPDFでも「ページ X / Y を処理中」と進捗が確認できる

こんなときに便利

•PDFの報告書から特定の数値や文言を検索・コピーしたい
•契約書・仕様書のテキストをWordやスプレッドシートに貼り付けたい
•PDFのテキストをChatGPTや翻訳ツールに入力したい
•大量のPDFドキュメントからテキストデータを取り出してデータ分析に使いたい

技術的な背景

PDFのテキスト抽出は、PDF内部に「テキストレイヤー」が存在するファイルにのみ有効です。スキャナで読み取って画像として保存したPDFや、保護設定でコピーが禁止されたPDFはテキストを取り出せません（その場合はOCRソフトが必要です）。このツールはPDF.jsのgetTextContent APIを使い、各ページのテキストアイテムを結合して出力します。フォントの埋め込み方法によっては文字の順序が入れ替わることがあります。