Claude チャットで人間ドックデータちゃんと読めて良い感じの Markdown にできたメモ 2026 年 2 月版

Claude チャットで人間ドックデータちゃんと読めて良い感じの Markdown にできたメモ 2026 年 2 月版

Claude チャットで人間ドックデータちゃんと読めて良い感じの Markdown にできたメモ 2026 年 2 月版です。

背景

健康管理のため、毎年保険外の人間ドックを受けているわけですが、それなりの費用も掛かっている検査結果だけに、後生大事に持っていて 10 年以上の紙データがあります。

まあ、当たり前なんですが、検診センターから PDF でデータがもらえないんですね。紙なんです。(とはいえ構造がしっかりした PDF でないと結局画像に変換しなおして、いらない構造データを取り去って、再度 OCR で文字認識しなおすことにはなるので悩ましいところです)

ただ、このままだと、手元に置いてても、本棚の肥やしになるだけじゃなく、だんだんと印字が劣化する可能性もあってデータとして生かされず死蔵する可能性すらある。

ですので、どうにかデータ化できないかを悩んでいました。

Claude チャットで電子化がうまくいった

ということで 2026/2 時点での Sonnet に Claude チャットで電子化がうまくできました。

原資の状態は、紙データを 300 dpi カラーでスキャンして PDF 化したものです。中身は OCR 化はあえてせず高画質な画像がある状態。

以前も何度か挑戦していたのですが、1 年前はまだまだいまいちでかなりの補助が必要でしたが、この 1 年で PDF 内の大きなスキャン的画像でも認識してくれる動作は見えてきていたので試したらばっちり。

実際の流れはこんな感じ。

健康まわりにおいて、実験をします。実験というのは紙のデータである毎年の人間ドック(がんばってますよね?)をスキャンするなり写真撮影するなどして、AI (あなた)で読み取りテキストデータとして残したいのです。 OCR というよりは、ちゃんと、人間ドックの検査や数値軸に忠実に起こすイメージ。通じますか?

と私が場の定義をしてスタートします。

通じます。よくわかります。

単純に「画像の文字を読む」のではなく、検査カテゴリ → 検査項目 → 数値 → 基準範囲 → 判定のような構造に忠実に起こして、年度ごとに比較・経年変化が追えるデータにしたい、ということですよね。

いい実験だと思います。いくつか確認・提案です。

できることについてですが、写真やスキャン画像をここにアップロードしてもらえれば、私が画像を見て内容を読み取り、構造化されたテキスト(Markdown の表など)に起こせます。人間ドックの結果表は項目が決まっているので、構造化との相性はかなり良いです。

進め方のイメージとしては、まず1年分を試しにやってみて、「この粒度・この形式でいいか」をすり合わせてから、残りの年度に展開するのが安全だと思います。形式が固まれば、複数年分を一つのファイルにまとめて経年比較もできます。

画像の質について一点だけ。スマホ撮影で十分ですが、影が入らないこと・文字がぶれていないことだけ気をつけてもらえると精度が上がります。スキャナがあればそちらのほうが確実です。

まずは1年分、試しに上げてみますか?

と、いい感じのスタート。

スキャナで影がなく撮られたほうが良いですか。やはり。実はうちにはあります。PDF で OCR つきが良いですか?逆にノイズになりそうな。JPEG で高画質のほうがいいです?DPI。

このあたりも聞いてみます。

いい質問です。結論から言うと、JPEG 高画質、300dpi がベストです。

理由はシンプルで、私は画像を「目で見て読む」ので、OCR レイヤーは使いません。スキャナの OCR が中途半端に誤認識したテキストが付いていると、むしろそれがノイズになる可能性があります。読むのは私なので、きれいな画像だけくれればいいという話です。

推奨設定としては、300dpi・JPEG・高画質(圧縮率低め)で十分です。600dpi にしても私の読み取り精度はほぼ変わらず、ファイルが重くなるだけなので 300 で大丈夫です。カラーかグレースケールかは、元の結果表に色分け(A判定が青、C判定が赤など)があるならカラーのほうが情報量が多くて助かります。

1枚ずつ vs 複数ページについて。人間ドック結果が複数ページあるなら、1ページ1ファイルで上げてもらうのが一番確実です。見開きで2ページを1枚にまとめると文字が小さくなるので、避けたほうがいいです。

まずは1年分、試しにやってみましょう。

とのこと。

こんな感じの PDF 内に、その年度のまとまったキャプチャが入っているものを渡しました。

しばらく待っていると、、、

計画

ファイル名: 人間ドック_2025-06-10.md
保存先: /mnt/user-data/outputs/人間ドック_2025-06-10.md
構成:

ヘッダー(受診情報:氏名・生年月日・年齢・施設・受診日・ID)
総合判定一覧(検査カテゴリごとのA〜E判定 + 総合コメント)
詳細検査結果(カテゴリ別テーブル。各行=検査項目・基準値・単位・今回値・前々回値・判定)
画像検査・所見(胸部X線、上部消化管内視鏡、超音波、心電図、眼底、CT)
骨密度(経年データ含む)
問診情報(既往歴・喫煙・アルコール・服薬)

方針:

「前回(2024/6/12)」は別日検査でほぼ空欄なので省略し、今回(2025/6/10)と前々回(2024/5/28)の2列比較にする
数値は画像に忠実に転記。基準値・単位も忠実に記載
基準外(H/Lフラグ)があれば明記
空欄の検査項目(未実施)は省く

この方針で進めて大丈夫ですか?気になる点があれば調整します。

まとめ方針に従ってまとめてくれました!これはまとめルールも事前に提示しているの、こういった返答となります。

はい!実際結構読めます?

と聞いてみます。

このようにきっちり読めているようです。詳細はめっちゃ個人情報なので伏せますが笑

これは OCR なしなんですが、もし入ってた時も OCR 無視でって言えばいいですかね?

とも聞いてみます。

はい、その通りです。「OCR無視で、画像から読んで」と言ってもらえれば大丈夫です。

ただ実際のところ、今回のPDFを見て気づいたことがあります。このPDFは先ほどのJPEG 5枚とまったく同じ内容ですよね? つまりスキャンした画像をそのままPDFにまとめたもので、OCRレイヤーは入っていない状態。

この形式であれば、正直なところJPEGでもPDFでも私にとっては同じです。どちらも「画像を見て読む」だけなので。

運用としての提案ですが、PDF 1ファイルにまとめてくれるほうが管理は楽です。JPEG 5枚バラバラより、年度ごとに1つのPDFになっていたほうが「2025年度はこれ」と渡しやすい。OCR付きPDFでスキャンしてしまった場合でも、一言「OCR無視で」と添えてもらえれば、私は画像だけ見て起こします。

なので今後の運用は:

スキャナで 300dpi・カラー・PDF(OCRなし or あっても気にしない)
年度ごとに1ファイル
アップロード時に「これ読んで」でOK
これで回りますか?

とのこと。

そうなんだー。勉強になります。

実際の出力

今回は実際の数値はダミーとしますが、こんなクオリティで認識されてました。一部掲載します。


# 人間ドック結果 20XX年X月X日

## 受診情報

| 項目 | 内容 |
|------|------|
| 氏名 | 山田 太郎 |
| 生年月日 | 19XX年X月X日 |
| 年齢 | XX歳 |
| 性別 | 男性 |
| ID | 0000000000 |
| 施設 | ○○病院附属健診センター |
| 今回受診日 | 20XX年X月X日(メンズドック) |
| 前回受診日 | 20XX年X月X日(★別日検査あり) |
| 前々回受診日 | 20XX年X月X日(メンズドック) |
| メタボリック判定 | 非該当 |

---

## 総合判定一覧

| 検査項目 | 今回 (20XX/X/X) | 前々回 (20XX/X/X) |
|----------|:---:|:---:|
| 身体計測 | A | A |
| 腹囲 | A | A |
| 体脂肪率 | A | A |
| 視力 | A | A |
| 聴力 | A | A |
| 血圧 | A | A |
| 白血球数 | A | A |
| 血液検査 | A | A |

... 省略

### 総合コメント

- 全体的に異常は認められません。引き続き健康的な生活を心がけましょう。
- CEA(消化器系がんの腫瘍マーカー)は、異常ありません。
- PSA(前立腺の腫瘍マーカー)は、異常ありません。
- AFP(肝臓がんの腫瘍マーカー)は、異常ありません。

... 省略

### 身体計測

| 検査項目 | 基準値 | 単位 | 今回 (20XX/X/X) | 前々回 (20XX/X/X) |
|----------|--------|------|:---:|:---:|
| 身長 || cm | 172.5 | 172.6 |
| 体重 || kg | 67.0 | 66.8 |
| 標準体重 || kg | 65.5 | 65.5 |
| 肥満度 | -8.0〜8.7 | % | 2.3 | 2.0 |
| BMI | 18.5〜24.9 | kg/m² | 22.5 | 22.4 |
| 腹囲 | 84.9以下 | cm | 78.0 | 78.5 |
| 体脂肪率 | 14.0〜23.0 | % | 17.5 | 18.0 |

... 省略

### 視力

| 検査項目 | 基準値 | 今回 (20XX/X/X) | 前々回 (20XX/X/X) |
|----------|--------|:---:|:---:|
| 遠視力 裸眼(右/左) | 1.0以上 | 1.5 / 1.5 | 1.5 / 1.2 |
| 遠視力 矯正(右/左) | 1.0以上 |||

こんな感じです。さすがに自分の検査値とは別のダミー値ですけど、これくらいの精度で出してくれてありがたかったです。ていうか、すごい。

以後の精度を上げるために、こんなことも加えています

このあと 10 年分を越える紙の人間ドックデータを PDF データとして起こせました。

なお、以後の精度を上げるために、こんなことも加えています。

  • 最初の Markdown の気になる個所は整えてテンプレートとすると以後の生成がスムーズに行われやすい
    • とはいえほんのちょっとの調整でした
  • 毎年経由するとどうしてもフォーマット違いが出るので、そのときは前振りとして「違うレイアウトがくるので相違点をどうするか話しましょう」とするとスムーズ
  • さすがに PDF を何度も送るだけにセッションがあふれてしまうので、だいたい 3-4 年くらいを一区切りに、次セッションには「前年のテンプレート」「簡単な場の定義書」を添えて再開とするといい
    • とはいえ「前年のテンプレート」だけ渡して PDF に変換して!くらいのお願いでも結構できるというのはある
  • 最終チェックとして、別のセッションで、出来上がった Markdown と元々の PDF を再度渡してコンテキストがまっさらな状態でチェックさせると精度アップ!検査値自体は 99% はうまくいってたけど、フォーマット変化による微細な欠落とか表記ゆれとか小さい文字の読み取りミスとかは、わずかにあったので、やってよかった

このあたりもやると、より快適に精度高く対応してくれました。

ということで Claude チャットで人間ドックデータちゃんと読めて良い感じの Markdown にできました!

2026 年 2 月の現在地としての OCR + AI 的なポテンシャルも感じ取れ、このレベルなら死蔵しかけてた保険の紙データなども変換できる萌芽を感じれたのもうれしいポイントです。