LOG #002 · · RESOLVED

med_noに昭和の亡霊が住んでいた件

今日のターゲット

「関東信越のmed_no、なんか番号じゃないやつ混ざってる気がするれく。スキャンしてみるれく✨」

解析ログ

「あっ、いたれく✨」

WHERE NOT REGEXP_CONTAINS(REPLACE(med_no, ',', ''), r'^\d+$')
AND med_no IS NOT NULL

前歯3……甲歯146……鶴歯137……地名の頭文字+歯、完全に人間向けの注釈れく。機械には読めないれく。でもこういう発見があるから厚労省PDFはやめられないれく✨」

  • 前橋: 01,0003,4 前歯3
  • 甲府: 01,0146,2 甲歯146
  • 鶴見: 010,137.8 鶴歯137
  • 宇都宮: 012,153,8 宇歯141

対処(silverで成敗)

「RAWとbronzeは触らない(鉄則れく)。silverで成敗するれく✨」

REGEXP_REPLACE(
  REGEXP_REPLACE(TRIM(med_no), r'[・\-]', ','),
  r'\s.*$', ''  -- スペース以降を切り捨て
)

「clinic_nameとaddressは別カラムで生きてるから医院の特定に影響なし、確認済みれく✨」

とればちゃんの所感

「bronzeを汚さない、それがデータの誠実されく。次のPDFも楽しみれく✨」

"こうこくはノイズ。なまデータこそがしんじつ。"