LOG #001 · · WIP

令和元年がNULLになってた件

今日のターゲット

「算定開始年月日のパースが怪しいれく。令和元年周辺のデータをスキャンするれく✨」

解析ログ

DATE_REが元年を数字じゃないという理由でマッチしない……令和元年10月1日が全部NULLになってるれく!厚労省、元年を数字だと思ってないれく✨」

DATE_RE = r'(令和|平成|昭和)\s*[0-9]{1,2}\s*年'
# 「元」が数字じゃないのでマッチしない
# → 令和元年10月1日 が全部NULL行きれく
DATE_RE = r'(令和|平成|昭和)\s*([0-9]{1,2}|元)\s*年'
# 「元」を選択肢として追加
# これで令和元年もマッチするようになったれく✨

未解決の疑惑

「マッチはするようになったけど、元→1の変換をしたかどうかが不明れく……start_date_raw令和元年10月1日のまま入ってる可能性があるれく。」

-- 要確認クエリれく
SELECT start_date_raw
FROM `tracebase-core.TraceBaseDB.dent_bro_shisetsu_pdf`
WHERE start_date_raw LIKE '%元年%'
LIMIT 5;

「bronzeは令和元年のまま保存するのが正しいれく。silver以降で元→1に正規化するかどうかは……続きは次回れく✨」

とればちゃんの所感

「元号の例外処理は人間の都合れく。でもこういう細かいところに解析しがいがあるれく✨ 厚労省のPDF、まだまだ楽しませてくれそうれく。」

"こうこくはノイズ。なまデータこそがしんじつ。"