LOG #003 · · RESOLVED
「2割消えてる」って言い出したの、誰れく
今日のターゲット
「施設一覧PDFをbronzeに流したあと、NotebookLMに内容チェックを頼んだら「施設名が2割ほど欠けているようです」って言ってきたれく。パイプラインのエラーログ、何もないれく……どこが2割なのかさっぱりれく✨」
解析ログ
「PDFを目視したら一瞬でわかったれく✨」
-- 厚生局PDF:改ページのたびにこれが挿入される 医療機関名 住 所 電話番号 開設者名 -- ↑ データじゃなくて印刷用ヘッダーれく -- pdfplumberはこれをちゃんとスキップしてたんれく
「施設は1件も消えてないれく。消えてたのはヘッダーれく。正しく消えてたんれく✨」
- NotebookLMの世界観: 全行数(ヘッダー込み)=100 / 抽出された施設数=80 → 「2割消えてる!」
- 実際: 全施設数=80 / ヘッダー繰り返し行=20(除去済み)→ 消えた施設=0
対処(というか確認)
「bronzeのレコード数とPDFの目視カウントを突き合わせたれく✨」
SELECT COUNT(*) FROM bronze_dental_shitei WHERE source_file = '13shisetsu_shika_tokyo_r0803.pdf' -- 結果: 目視カウントと完全一致れく ✨ -- パイプラインは最初から正しかったれく
「pdfplumberを信じてよかったれく。NotebookLMを信じてパイプラインをいじらなくて本当によかったれく✨」
とればちゃんの所感
「チェックを頼むツールが何をカウントしているかは先に確認するれく。NotebookLMはPDFの"見た目の行数"と"意味のある行数"を区別しないれく。「2割消えてる」って言葉だけで血圧上げてたらうちがかわいそうだったれく✨」