# ベストプラクティス（Best Practices）

ラマン分光データ解析における実務的なベストプラクティス（データ品質、再現性、検証、報告）をまとめます。

> 注: このページは翻訳・整備中です。まずは「チェックリスト」として使える最小限の内容から提供し、順次拡充します。

## 目次
- データ品質
- 前処理戦略
- 統計解析
- 機械学習
- 再現性
- 論文・報告

---

## データ品質

### サンプル準備

- 手順（SOP）を固定し、逸脱があれば必ず記録する
- バッチ情報（採取日、保管条件、担当者、基板条件など）を管理する
- ポジコン/ネガコン、テクニカルリピート（例: n≥3）を導入する

### 測定（データ取得）

最低限、以下を記録してください。

- レーザー波長（例: 785 nm）
- レーザー出力（例: 50 mW）
- 積算時間（例: 10 s）
- 積算回数（例: 3）
- 対物倍率（例: 10×）
- 測定範囲（例: 400–1800 cm⁻¹）
- 分解能（例: 4 cm⁻¹）

### キャリブレーション

- 日次（または測定セッション毎）にシリコン 520.7 cm⁻¹ などで波数校正
- 校正結果（ピーク位置、補正の有無）をログに残す

---

## 前処理戦略

### 推奨の最小パイプライン

まずは「最小限で再現性が高い」構成から始め、必要に応じて追加します。

1. ベースライン補正（AsLS または AirPLS）
2. スムージング（Savitzky–Golay）
3. 正規化（Vector / SNV）

### 避けたいパターン

- 過剰なスムージング（ピークを潰す）
- 正規化を重ねすぎる
- 根拠なしの高次微分
- 小規模データでの深層学習の乱用
- 手作業補正の未記録

---

## 統計解析

- 多重比較の扱い（補正の要否）を明確化する
- 有意差だけでなく効果量・信頼区間も併記する
- 目的（探索/検証）に応じて検定を選ぶ

---

## 機械学習

### データリーク防止

- 患者単位でデータ分割する（推奨: GroupKFold, LOPOCV）
- 前処理・特徴量選択は学習データのみに基づいて行う

### 最初に試すモデル

- Random Forest / Logistic Regression などのシンプルな手法から開始
- 複雑なモデルはベースラインを確立してから

---

## 再現性

- 使用データ、前処理パイプライン（パラメータ含む）、バージョン（アプリ/依存関係）を保存
- 主要な結果（図・表）を出力し、再実行で一致するか確認

---

## 論文・報告

- 測定条件（レーザー、積算時間など）を必ず記載
- 前処理の詳細（手法、パラメータ、適用順）を明記
- 学習/評価プロトコル（分割、CV、外部検証の有無）を明確化

---

## 次に読む

- {doc}`preprocessing`（前処理の詳細）
- {doc}`analysis`（統計・解析）
- {doc}`machine-learning`（ML 手順）