# データ管理ガイド ラマンスペクトルデータの効果的な管理 --- ## 📋 目次 - {ref}`データのインポート ` - {ref}`データ形式 ` - {ref}`グループ管理 ` - {ref}`データの検証と品質管理 ` - {ref}`プロジェクト管理 ` - {ref}`データのエクスポート ` - {ref}`ベストプラクティス ` --- (ug-import-import)= ## データのインポート ### サポートされている形式 アプリケーションは以下のデータ形式をサポートしています: | 形式 | 拡張子 | 用途 | 特徴 | | ------------- | ---------------- | -------- | -------------------------------------------- | | **CSV** | `.csv` | 推奨 | 最も互換性が高い、テキストエディタで編集可能 | | **テキスト** | `.txt` | 簡易形式 | タブまたはスペース区切り | | **ASC/ASCII** | `.asc`, `.ascii` | 簡易形式 | タブまたはスペース区切り(装置出力で一般的) | | **PKL** | `.pkl` | 再利用 | Python pickle(アプリ内データの保存/再利用) | ### 基本的なインポート手順 #### 方法1: メニューから ``` ファイル → インポート → データファイル → ファイルを選択 → 開く ``` #### 方法2: ドラッグ&ドロップ ``` 1. ファイルマネージャーでファイルを選択 2. アプリケーションウィンドウにドラッグ 3. 自動的にインポート開始 ``` #### 方法3: データパッケージタブから ``` 1. 「データパッケージ」タブを選択 2. 「ファイルをインポート」ボタンをクリック 3. ファイルを選択 ``` ### 複数ファイルのインポート #### バッチインポート ``` データパッケージ → ファイルをインポート → 複数選択(Ctrl/Cmd + クリック)→ ロード または フォルダ全体をインポート: データパッケージ → フォルダをインポート → フォルダを選択 → 対応ファイル(CSV/TXT/ASC/ASCII/PKL)を自動検出 ``` **注意事項**: - すべてのファイルが同じ波数範囲である必要があります - 異なる波数範囲の場合は、リサンプリングが必要です #### 自動命名規則 ファイル名から自動的にサンプル名とグループを認識: ``` # ファイル名パターン sample_A_001.csv → サンプル名: A_001, グループ: A sample_A_002.csv → サンプル名: A_002, グループ: A sample_B_001.csv → サンプル名: B_001, グループ: B # カスタムパターン 設定 → データ → 命名規則 → パターン: {group}_{number}.csv 区切り文字: _ ``` ### インポート設定 #### 高度なオプション ``` データパッケージ → インポート → 詳細設定 → オプション: □ ヘッダー行をスキップ: 最初のN行を無視 □ 波数列: 第1列(デフォルト) □ 区切り文字: カンマ(CSV)、タブ(TXT)、自動検出 □ 小数点: ピリオド または カンマ □ エンコーディング: UTF-8(推奨)、Shift-JIS、Latin-1 □ 欠損値の処理: 0で埋める、線形補間、除外 ``` --- (ug-import-formats)= ## データ形式 ### 標準CSV形式 #### 推奨フォーマット ```text Wavenumber,Sample_1,Sample_2,Sample_3,Sample_4 400.0,0.1234,0.1456,0.1123,0.1345 401.0,0.1345,0.1567,0.1234,0.1456 402.0,0.1456,0.1678,0.1345,0.1567 403.0,0.1567,0.1789,0.1456,0.1678 ... 2000.0,0.0234,0.0256,0.0223,0.0245 ``` **ポイント**: - 第1列: 波数(昇順) - 第2列以降: 各サンプルの強度値 - ヘッダー行: 列名を記述 - 小数点: ピリオド(`.`)使用 - 区切り: カンマ(`,`) #### 転置形式(オプション) ```text Sample,400.0,401.0,402.0,403.0,...,2000.0 Sample_1,0.1234,0.1345,0.1456,0.1567,...,0.0234 Sample_2,0.1456,0.1567,0.1678,0.1789,...,0.0256 Sample_3,0.1123,0.1234,0.1345,0.1456,...,0.0223 ``` インポート時に「転置」オプションを選択 ### Excel形式 現時点では、Excel(`.xlsx`/`.xls`)のインポートは未対応です。 必要な場合はCSVに変換してから読み込んでください。 ### メタデータの追加 #### メタデータファイル ```text # metadata.csv Sample,Group,Date,Condition,Replicate Sample_1,A,2026-01-24,Normal,1 Sample_2,A,2026-01-24,Normal,2 Sample_3,B,2026-01-24,Treated,1 Sample_4,B,2026-01-24,Treated,2 ``` インポート: ``` データパッケージ → メタデータをインポート → metadata.csv を選択 ``` #### Excelでのメタデータ ※ Excelメタデータ連携は未対応です。メタデータはCSV(例: `metadata.csv`)で管理してください。 ### データ検証 #### 自動検証 インポート時に自動的にチェック: ✅ **構造の確認**: - ヘッダー行が存在 - 波数列が数値 - すべての行が同じ列数 ✅ **データ品質の確認**: - 欠損値の検出 - 外れ値の警告 - 負の値の検出 - 重複波数の検出 ✅ **波数範囲の確認**: - 波数が昇順 - 波数間隔の一貫性 - 一般的な範囲内(0-4000 cm⁻¹) #### 手動検証 ``` データパッケージ → データ品質 → レポート生成 レポート内容: - サンプル数: 50 - 波数ポイント: 1601 - 波数範囲: 400-2000 cm⁻¹ - 平均間隔: 1.0 cm⁻¹ - 欠損値: 0 - 外れ値: 3(0.1%) - ベースライン: 平均 0.15 ± 0.03 - ノイズレベル: SNR 45 dB ``` --- (ug-import-groups)= ## グループ管理 ### グループの作成 #### 方法1: 手動作成 ``` データパッケージ → グループ管理 → 新規グループ → グループ名を入力(例: "Control")→ 作成 サンプルを選択 → グループに追加 ``` #### 方法2: ファイル名から自動 ``` データパッケージ → インポート → 「ファイル名からグループを自動作成」にチェック 例: control_001.csv → グループ "control" control_002.csv → グループ "control" treated_001.csv → グループ "treated" ``` #### 方法3: メタデータから ``` メタデータファイル(CSV): Sample,Group sample_1,Control sample_2,Control sample_3,Treated インポート: データパッケージ → メタデータをインポート → 自動的にグループ作成 ``` ### グループの編集 #### 名前の変更 ``` グループ管理 → グループを選択 → 名前を変更 → 新しい名前を入力 ``` #### サンプルの移動 ``` # ドラッグ&ドロップ サンプルを選択 → 新しいグループにドラッグ # または サンプルを選択 → 右クリック → 「グループに移動」→ グループを選択 ``` #### グループの結合 ``` グループ管理 → 複数のグループを選択 → 結合 → 新しい名前を入力 ``` #### グループの分割 ``` グループを選択 → 分割 → 条件を指定: - メタデータ列で分割 - ファイル名パターンで分割 - 手動選択 ``` ### グループの色とスタイル #### カラーコーディング ``` グループ管理 → グループを選択 → 色を設定 → カラーピッカーで選択 または 自動カラー割り当て: グループ管理 → すべて選択 → 「色を自動割り当て」 ``` #### プロットスタイル ``` グループ管理 → グループを選択 → スタイル: - 線の種類: 実線、破線、点線 - マーカー: ○、△、□、◇ - 線の太さ: 1-5 pt ``` --- (ug-import-validation)= ## データの検証と品質管理 ### 品質メトリクス #### S/N比(信号対雑音比) ``` データパッケージ → 品質評価 → SNR計算 SNR = ピーク強度 / ノイズ標準偏差 判定基準: ✓ SNR > 100: 優良 ✓ SNR 50-100: 良好 ✓ SNR 20-50: 許容 ✗ SNR < 20: 不良(再測定推奨) ``` #### ベースライン安定性 ``` データパッケージ → 品質評価 → ベースライン分析 メトリクス: - 平均ベースライン: 0.15 - 標準偏差: 0.03 - 傾き: -0.0001 cm⁻¹ - ドリフト: 低(良好) ``` #### ピーク検出 ``` データパッケージ → 品質評価 → ピーク検出 設定: - 最小高さ: ベースラインの5倍 - 最小距離: 10 cm⁻¹ - 最小幅: 3ポイント 結果: 検出されたピーク: 15 主要ピーク位置: [1450, 1585, 1620, ...] cm⁻¹ ``` ### 外れ値の検出 #### 統計的外れ値 ``` データパッケージ → 品質評価 → 外れ値検出 → 統計的手法 方法: 1. Z-スコア法 |z| > 3 を外れ値とする 2. IQR法(四分位範囲) Q1 - 1.5×IQR または Q3 + 1.5×IQR を超える 3. Isolation Forest 機械学習ベースの検出 ``` #### スペクトル比較 ``` データパッケージ → 品質評価 → 外れ値検出 → スペクトル類似度 手法: - 相関係数 < 0.8 - ユークリッド距離 > 閾値 - 主成分空間での距離 ``` #### 視覚的確認 ``` データパッケージ → すべてのスペクトルを表示 → 視覚的に確認 チェック項目: □ 明らかに異なる形状 □ 強度が極端に異なる □ ノイズレベルが高い □ ベースラインが不安定 ``` ### データのクリーニング #### 外れ値の除去 ``` # 自動除去 データパッケージ → 品質評価 → 外れ値検出 → 除去 # 手動除去 外れ値を選択 → 右クリック → 削除 # 除外(削除せず非表示) 外れ値を選択 → 右クリック → 「分析から除外」 ``` #### 欠損値の処理 ``` データパッケージ → データクリーニング → 欠損値の処理 オプション: 1. 線形補間 前後の値から計算 2. スプライン補間 滑らかな曲線で補間 3. 隣接スペクトルの平均 同じグループの平均を使用 4. 除外 欠損値を含む波数を除去 ``` #### 重複の除去 ``` データパッケージ → データクリーニング → 重複を検出 判定基準: - 完全一致: すべての値が同じ - 類似度 > 99.9%: ほぼ同一 処理: □ 最初のものを保持 □ 最後のものを保持 □ 平均を使用 □ すべて削除 ``` --- (ug-import-projects)= ## プロジェクト管理 ### プロジェクトの保存 #### 基本的な保存 ``` ファイル → プロジェクトを保存 → ファイル名を入力 → 保存 含まれる内容: ✓ インポートされたデータ ✓ グループ情報 ✓ 前処理パイプライン ✓ 分析結果 ✓ 可視化設定 ✓ メタデータ ``` #### 自動保存 ``` 設定 → プロジェクト → 自動保存 → 有効化にチェック オプション: - 間隔: 5分、10分、15分 - 保存場所: デフォルト or カスタム - バックアップ数: 1-10 ``` #### バージョン管理 ``` ファイル → プロジェクトを保存 → 「新しいバージョンとして保存」 命名規則: project_v1.raman project_v2.raman project_v3.raman または日付: project_2026-01-24.raman project_2026-01-25.raman ``` ### プロジェクトの読み込み ``` ファイル → プロジェクトを開く → ファイルを選択 → 開く 自動的に復元: ✓ すべてのデータ ✓ グループ構造 ✓ 前処理パイプライン ✓ 分析結果 ✓ ウィンドウ配置 ``` ### プロジェクトのエクスポート #### 完全なエクスポート 現時点では、プロジェクト全体の一括エクスポート(例: プロジェクトをまとめて保存/共有する機能)は準備中です。 代替として、必要なデータと図は各タブのエクスポート機能から出力してください: - データ: CSV / XLSX / JSON / TXT / PKL - 図(プロット): PNG / SVG ### テンプレートの使用 #### テンプレートの作成 ``` 現在のプロジェクト設定で: ファイル → テンプレートとして保存 → テンプレート名を入力 保存される内容: ✓ 前処理パイプライン ✓ 分析設定 ✓ 可視化設定 ✓ グループ構造(空) ✗ 実際のデータ ``` #### テンプレートの使用 ``` ファイル → 新しいプロジェクト → テンプレートから作成 → 選択 自動的に適用: - 前処理設定 - 分析パラメータ - プロットスタイル ``` --- (ug-import-export)= ## データのエクスポート ### 個別スペクトルのエクスポート #### CSV形式 ``` データパッケージ → スペクトルを選択 → 右クリック → エクスポート → CSV フォーマット: Wavenumber,Intensity 400.0,0.1234 401.0,0.1345 ... ``` #### Excel形式 ``` データパッケージ → スペクトルを選択 → 右クリック → エクスポート → XLSX ※ 出力内容は、選択したデータ(生データ/前処理済みなど)に応じて異なります。 ``` ### バッチエクスポート #### すべてのスペクトル ``` データパッケージ → すべて選択 → エクスポート → フォルダを選択 オプション: □ 個別ファイル: 各スペクトルを別ファイルに □ 結合ファイル: すべてを1つのファイルに □ グループごと: グループ別にファイル作成 ``` #### グループごと ``` データパッケージ → グループ管理 → グループを選択 → エクスポート ファイル命名: {GroupName}_combined.csv または {GroupName}/sample_001.csv {GroupName}/sample_002.csv ``` ### 前処理済みデータのエクスポート ``` 前処理タブ → 結果 → エクスポート 含まれる内容: 1. 元のスペクトル(オプション) 2. 前処理済みスペクトル 3. 適用されたパイプライン情報 4. パラメータ設定 形式: - CSV: 互換性高い - XLSX: 表形式(Excelで閲覧可能) - JSON / TXT / PKL: 用途に応じて選択 ``` ### 分析結果のエクスポート #### PCA結果 ``` 分析タブ → PCA結果 → エクスポート 含まれる内容: - スコア(主成分空間の座標) - ローディング(各波数の寄与) - 説明分散 - スクリープロット(画像) - スコアプロット(画像) 形式: Excel(推奨)または CSV ※ 現時点では、XLSX または CSV(必要に応じて JSON/TXT/PKL)での出力を想定しています。 ``` #### 統計分析結果 ``` 分析タブ → 統計結果 → エクスポート 含まれる内容: - 検定統計量 - p値 - 効果量 - 信頼区間 - 多重比較補正結果 形式: Excel(表形式)または CSV ※ 現時点では、XLSX または CSV(必要に応じて JSON/TXT/PKL)での出力を想定しています。 ``` #### 機械学習モデル ``` 機械学習タブ → モデル → エクスポート 含まれる内容: 1. モデルファイル(.pkl) - トレーニング済みモデル - 前処理パイプライン - スケーラー 2. 付随ファイル(画像/メタデータなど) - PDFレポート出力は現時点では未対応です 3. 予測結果(CSV) ``` --- (ug-import-best-practices)= ## ベストプラクティス ### データ命名規則 #### 推奨されるファイル命名 ``` 良い例: sample_control_001.csv sample_control_002.csv sample_treated_001.csv sample_treated_002.csv 理由: ✓ 明確な構造 ✓ 自動グループ化可能 ✓ ソート順が論理的 ✓ プログラムで処理しやすい ``` ``` 避けるべき例: データ1.csv 最終版2.csv test (1).csv サンプルA.csv 理由: ✗ 構造が不明確 ✗ 特殊文字/括弧 ✗ 全角文字(互換性問題) ✗ 連番が不明確 ``` ### データ構造 #### フォルダ構成 ``` project/ ├── raw_data/ │ ├── control/ │ │ ├── sample_001.csv │ │ ├── sample_002.csv │ │ └── sample_003.csv │ ├── treated/ │ │ ├── sample_001.csv │ │ ├── sample_002.csv │ │ └── sample_003.csv │ └── metadata.csv ├── processed_data/ │ └── preprocessed_all.xlsx ├── results/ │ ├── pca_results.xlsx │ ├── statistical_tests.xlsx │ └── ml_model.pkl ├── figures/ │ ├── spectra_overview.png │ ├── pca_score_plot.png │ └── confusion_matrix.png └── project.raman ``` ### データバックアップ #### 推奨バックアップ戦略 ``` 1. プロジェクトレベル - プロジェクトファイル(.raman)を定期的に保存 - バージョン番号または日付を含める 2. 生データ - 元のCSVファイルを別の場所にバックアップ - 読み取り専用にして保護 3. 結果 - 分析結果を定期的にエクスポート - 図とレポートも保存 4. 自動バックアップ 設定 → プロジェクト → 自動バックアップ: - 場所: 外部ドライブ or クラウド - 頻度: 毎日 - 保持: 過去30日分 ``` ### メタデータ管理 #### 重要なメタデータ 記録すべき情報: ```text Sample,Group,Date,Time,Operator,Instrument,LaserPower,IntegrationTime,Replicate,Notes S001,Control,2026-01-24,10:30,Alice,Raman-500,50mW,10s,1,Good quality S002,Control,2026-01-24,10:35,Alice,Raman-500,50mW,10s,2,Good quality S003,Treated,2026-01-24,10:40,Alice,Raman-500,50mW,10s,1,Slight fluorescence S004,Treated,2026-01-24,10:45,Alice,Raman-500,50mW,10s,2,Good quality ``` **最小限のメタデータ**: - サンプル ID - グループ - 測定日 **推奨される追加情報**: - 測定時刻 - オペレーター - 装置 - 測定条件(レーザー出力、積算時間など) - レプリケート番号 - 品質に関するノート ### データ品質保証 #### 測定前チェックリスト ``` □ 装置の校正が最新 □ レーザー出力が安定 □ サンプルの配置が適切 □ バックグラウンド測定済み □ 測定条件を記録 ``` #### 測定後チェックリスト ``` □ SNR > 20 □ ベースラインが安定 □ 主要ピークが検出される □ 飽和がない □ ファイルが正しく保存された □ バックアップが作成された ``` #### データインポート後チェックリスト ``` □ すべてのファイルがロードされた □ 波数範囲が正しい □ グループが正しく設定された □ メタデータが関連付けられた □ 外れ値をチェック □ プロジェクトを保存 ``` --- ## 🔗 関連ドキュメント - **[クイックスタート](../quick-start.md)** - 5分で開始 - **[前処理ガイド](preprocessing.md)** - データの前処理 - **[解析ガイド](analysis.md)** - データ解析 - **[FAQ](../faq.md)** - よくある質問 - **[トラブルシューティング](../troubleshooting.md)** - 問題解決 --- **最終更新**: 2026年1月24日 | **バージョン**: 1.0.0