# ベストプラクティス(Best Practices) ラマン分光データ解析における実務的なベストプラクティス(データ品質、再現性、検証、報告)をまとめます。 > 注: このページは翻訳・整備中です。まずは「チェックリスト」として使える最小限の内容から提供し、順次拡充します。 ## 目次 - データ品質 - 前処理戦略 - 統計解析 - 機械学習 - 再現性 - 論文・報告 --- ## データ品質 ### サンプル準備 - 手順(SOP)を固定し、逸脱があれば必ず記録する - バッチ情報(採取日、保管条件、担当者、基板条件など)を管理する - ポジコン/ネガコン、テクニカルリピート(例: n≥3)を導入する ### 測定(データ取得) 最低限、以下を記録してください。 - レーザー波長(例: 785 nm) - レーザー出力(例: 50 mW) - 積算時間(例: 10 s) - 積算回数(例: 3) - 対物倍率(例: 10×) - 測定範囲(例: 400–1800 cm⁻¹) - 分解能(例: 4 cm⁻¹) ### キャリブレーション - 日次(または測定セッション毎)にシリコン 520.7 cm⁻¹ などで波数校正 - 校正結果(ピーク位置、補正の有無)をログに残す --- ## 前処理戦略 ### 推奨の最小パイプライン まずは「最小限で再現性が高い」構成から始め、必要に応じて追加します。 1. ベースライン補正(AsLS または AirPLS) 2. スムージング(Savitzky–Golay) 3. 正規化(Vector / SNV) ### 避けたいパターン - 過剰なスムージング(ピークを潰す) - 正規化を重ねすぎる - 根拠なしの高次微分 - 小規模データでの深層学習の乱用 - 手作業補正の未記録 --- ## 統計解析 - 多重比較の扱い(補正の要否)を明確化する - 有意差だけでなく効果量・信頼区間も併記する - 目的(探索/検証)に応じて検定を選ぶ --- ## 機械学習 ### データリーク防止 - 患者単位でデータ分割する(推奨: GroupKFold, LOPOCV) - 前処理・特徴量選択は学習データのみに基づいて行う ### 最初に試すモデル - Random Forest / Logistic Regression などのシンプルな手法から開始 - 複雑なモデルはベースラインを確立してから --- ## 再現性 - 使用データ、前処理パイプライン(パラメータ含む)、バージョン(アプリ/依存関係)を保存 - 主要な結果(図・表)を出力し、再実行で一致するか確認 --- ## 論文・報告 - 測定条件(レーザー、積算時間など)を必ず記載 - 前処理の詳細(手法、パラメータ、適用順)を明記 - 学習/評価プロトコル(分割、CV、外部検証の有無)を明確化 --- ## 次に読む - {doc}`preprocessing`(前処理の詳細) - {doc}`analysis`(統計・解析) - {doc}`machine-learning`(ML 手順)