PDF抽出ツール

PDF EXTRACTOR · NEWSPAPER & BOOK
カスタム抽出スキーマ · Gemini API連携 · リアルタイムコスト試算
既存ファイルの後処理
既存のExcel/JSONから[cite:]タグなどを一括除去して再保存
STEP 01

API設定

Google AI Studio で取得
手動相談は、このツールで指示文を作り、Geminiブラウザに貼ってJSONを戻します。
Cloudflare Pagesでは入力不要。GEMINI_API_KEY Secretをサーバー側で使用します。
コスト試算と実行で使用。
STEP 02

PDFアップロード

新聞・法律書・教科書 など
PDFファイルをここにドロップ
または クリックして選択
日経新聞PDFの場合、ファイル名末尾 (m/e/r/p) から版種を自動判定
STEP 03

抽出スキーマ

プリセット選択 or 自由設計
キー (英)
表示名 (日)
説明 / プロンプト指示
必須
Geminiや他システムで作成したスキーマJSONを貼り付け

Gemini や ChatGPT に「以下の形式で抽出スキーマを作って」と指示して得たJSONをそのまま貼り付けると、スキーマ表に反映されます。
対応形式: このツールが出力する形式(fields/enrichFields/role/rules)、または各フィールドの配列のみ。

※ 「スキーマ作成プロンプト」はGemini/ChatGPTに「こういうスキーマを作って」と頼むためのテンプレートです。

「あなたは〜の専門家」など。トーンや専門性を指定。
「広告は除外」「条文は条番号付きで」など。1行1ルール推奨。
STEP 04

実行オプション

バッチサイズと再試行
2以上推奨。濃い内容(法律書等)は5前後、新聞は10以上が目安。切れたら自動で半分に分割します。
RPM制限回避用。6秒=10 RPM以下に抑制。
429時はサーバ指示秒数で待機+再試行。

API利用コスト試算

¥
≈ $ USD
PDFを読み込むと自動で試算します。
API呼出回数
入力トークン
PDF画像 + プロンプト
出力トークン
構造化JSON
為替レート
円/$
必要に応じて調整
内訳とモデル単価を表示

初回は「お試し抽出」推奨: 1ページだけ抽出してアウトプット形式を確認 → 問題なければ全ページ実行。
  これで無料枠を浪費せずに、スキーマ設定や指示文の問題を事前にチェックできます。