PDF抽出ツール

カスタム抽出スキーマ · Gemini API連携 · リアルタイムコスト試算

既存ファイルの後処理

既存のExcel/JSONから[cite:]タグなどを一括除去して再保存

STEP 01

API設定

Google AI Studio で取得

実行モード手動相談は、このツールで指示文を作り、Geminiブラウザに貼ってJSONを戻します。

Gemini API Key（ローカル直開き用） Cloudflare Pagesでは入力不要。GEMINI_API_KEY Secretをサーバー側で使用します。

モデルコスト試算と実行で使用。

STEP 02

PDFアップロード

新聞・法律書・教科書など

＋

PDFファイルをここにドロップ
またはクリックして選択

日経新聞PDFの場合、ファイル名末尾 (m/e/r/p) から版種を自動判定

STEP 03

抽出スキーマ

プリセット選択 or 自由設計

キー (英)

表示名 (日)

型

説明 / プロンプト指示

必須

▸ Geminiや他システムで作成したスキーマJSONを貼り付け

Gemini や ChatGPT に「以下の形式で抽出スキーマを作って」と指示して得たJSONをそのまま貼り付けると、スキーマ表に反映されます。
対応形式: このツールが出力する形式（fields/enrichFields/role/rules）、または各フィールドの配列のみ。

※ 「スキーマ作成プロンプト」はGemini/ChatGPTに「こういうスキーマを作って」と頼むためのテンプレートです。

役割定義 (システムプロンプト) 「あなたは〜の専門家」など。トーンや専門性を指定。

抽出ルール / 追加指示「広告は除外」「条文は条番号付きで」など。1行1ルール推奨。

STEP 04

実行オプション

バッチサイズと再試行

分割バッチサイズ (ページ) 2以上推奨。濃い内容(法律書等)は5前後、新聞は10以上が目安。切れたら自動で半分に分割します。

呼出間隔（秒） RPM制限回避用。6秒=10 RPM以下に抑制。

最大再試行回数 429時はサーバ指示秒数で待機+再試行。

無料枠セーフモード（モデル別RPMに合わせて自動で呼出間隔を調整）厳格モード（検証警告をログに表示）深掘り分析を実施（プリセットが定義されている場合）

API利用コスト試算

—

¥—

≈ $— USD

PDFを読み込むと自動で試算します。

API呼出回数

—

入力トークン

—

PDF画像 + プロンプト

出力トークン

—

構造化JSON

為替レート

円/$

必要に応じて調整

内訳とモデル単価を表示

※ 初回は「お試し抽出」推奨: 1ページだけ抽出してアウトプット形式を確認 → 問題なければ全ページ実行。
　これで無料枠を浪費せずに、スキーマ設定や指示文の問題を事前にチェックできます。

抽出結果 0件

API設定

PDFアップロード

抽出スキーマ

実行オプション

API利用コスト試算

Gemini手動相談 (並列実行モード)

実行ログ

自動検証結果