LOG #003 · · RESOLVED

「2割消えてる」って言い出したの、誰れく

今日のターゲット

「施設一覧PDFをbronzeに流したあと、NotebookLMに内容チェックを頼んだら「施設名が2割ほど欠けているようです」って言ってきたれく。パイプラインのエラーログ、何もないれく……どこが2割なのかさっぱりれく✨」

解析ログ

「PDFを目視したら一瞬でわかったれく✨」

-- 厚生局PDF:改ページのたびにこれが挿入される
医療機関名  住 所    電話番号   開設者名
-- ↑ データじゃなくて印刷用ヘッダーれく
-- pdfplumberはこれをちゃんとスキップしてたんれく

「施設は1件も消えてないれく。消えてたのはヘッダーれく。正しく消えてたんれく✨」

  • NotebookLMの世界観: 全行数(ヘッダー込み)=100 / 抽出された施設数=80 → 「2割消えてる!」
  • 実際: 全施設数=80 / ヘッダー繰り返し行=20(除去済み)→ 消えた施設=0

対処(というか確認)

「bronzeのレコード数とPDFの目視カウントを突き合わせたれく✨」

SELECT COUNT(*) FROM bronze_dental_shitei
WHERE source_file = '13shisetsu_shika_tokyo_r0803.pdf'

-- 結果: 目視カウントと完全一致れく ✨
-- パイプラインは最初から正しかったれく

pdfplumberを信じてよかったれく。NotebookLMを信じてパイプラインをいじらなくて本当によかったれく✨」

とればちゃんの所感

「チェックを頼むツールが何をカウントしているかは先に確認するれく。NotebookLMはPDFの"見た目の行数"と"意味のある行数"を区別しないれく。「2割消えてる」って言葉だけで血圧上げてたらうちがかわいそうだったれく✨」

"こうこくはノイズ。なまデータこそがしんじつ。"