# データ管理ガイド

ラマンスペクトルデータの効果的な管理

---

## 📋 目次

- {ref}`データのインポート <ug-import-import>`
- {ref}`データ形式 <ug-import-formats>`
- {ref}`グループ管理 <ug-import-groups>`
- {ref}`データの検証と品質管理 <ug-import-validation>`
- {ref}`プロジェクト管理 <ug-import-projects>`
- {ref}`データのエクスポート <ug-import-export>`
- {ref}`ベストプラクティス <ug-import-best-practices>`

---

(ug-import-import)=
## データのインポート

### サポートされている形式

アプリケーションは以下のデータ形式をサポートしています:

| 形式          | 拡張子           | 用途     | 特徴                                         |
| ------------- | ---------------- | -------- | -------------------------------------------- |
| **CSV**       | `.csv`           | 推奨     | 最も互換性が高い、テキストエディタで編集可能 |
| **テキスト**  | `.txt`           | 簡易形式 | タブまたはスペース区切り                     |
| **ASC/ASCII** | `.asc`, `.ascii` | 簡易形式 | タブまたはスペース区切り（装置出力で一般的） |
| **PKL**       | `.pkl`           | 再利用   | Python pickle（アプリ内データの保存/再利用） |

### 基本的なインポート手順

#### 方法1: メニューから

```
ファイル → インポート → データファイル → 
ファイルを選択 → 開く
```

#### 方法2: ドラッグ＆ドロップ

```
1. ファイルマネージャーでファイルを選択
2. アプリケーションウィンドウにドラッグ
3. 自動的にインポート開始
```

#### 方法3: データパッケージタブから

```
1. 「データパッケージ」タブを選択
2. 「ファイルをインポート」ボタンをクリック
3. ファイルを選択
```

### 複数ファイルのインポート

#### バッチインポート

```
データパッケージ → ファイルをインポート → 
複数選択（Ctrl/Cmd + クリック）→ ロード

または

フォルダ全体をインポート:
データパッケージ → フォルダをインポート → 
フォルダを選択 → 対応ファイル（CSV/TXT/ASC/ASCII/PKL）を自動検出
```

**注意事項**:
- すべてのファイルが同じ波数範囲である必要があります
- 異なる波数範囲の場合は、リサンプリングが必要です

#### 自動命名規則

ファイル名から自動的にサンプル名とグループを認識:

```
# ファイル名パターン
sample_A_001.csv → サンプル名: A_001, グループ: A
sample_A_002.csv → サンプル名: A_002, グループ: A
sample_B_001.csv → サンプル名: B_001, グループ: B

# カスタムパターン
設定 → データ → 命名規則 → 
パターン: {group}_{number}.csv
区切り文字: _
```

### インポート設定

#### 高度なオプション

```
データパッケージ → インポート → 詳細設定 → 

オプション:
□ ヘッダー行をスキップ: 最初のN行を無視
□ 波数列: 第1列（デフォルト）
□ 区切り文字: カンマ（CSV）、タブ（TXT）、自動検出
□ 小数点: ピリオド または カンマ
□ エンコーディング: UTF-8（推奨）、Shift-JIS、Latin-1
□ 欠損値の処理: 0で埋める、線形補間、除外
```

---

(ug-import-formats)=
## データ形式

### 標準CSV形式

#### 推奨フォーマット

```text
Wavenumber,Sample_1,Sample_2,Sample_3,Sample_4
400.0,0.1234,0.1456,0.1123,0.1345
401.0,0.1345,0.1567,0.1234,0.1456
402.0,0.1456,0.1678,0.1345,0.1567
403.0,0.1567,0.1789,0.1456,0.1678
...
2000.0,0.0234,0.0256,0.0223,0.0245
```

**ポイント**:
- 第1列: 波数（昇順）
- 第2列以降: 各サンプルの強度値
- ヘッダー行: 列名を記述
- 小数点: ピリオド（`.`）使用
- 区切り: カンマ（`,`）

#### 転置形式（オプション）

```text
Sample,400.0,401.0,402.0,403.0,...,2000.0
Sample_1,0.1234,0.1345,0.1456,0.1567,...,0.0234
Sample_2,0.1456,0.1567,0.1678,0.1789,...,0.0256
Sample_3,0.1123,0.1234,0.1345,0.1456,...,0.0223
```

インポート時に「転置」オプションを選択

### Excel形式

現時点では、Excel（`.xlsx`/`.xls`）のインポートは未対応です。
必要な場合はCSVに変換してから読み込んでください。

### メタデータの追加

#### メタデータファイル

```text
# metadata.csv
Sample,Group,Date,Condition,Replicate
Sample_1,A,2026-01-24,Normal,1
Sample_2,A,2026-01-24,Normal,2
Sample_3,B,2026-01-24,Treated,1
Sample_4,B,2026-01-24,Treated,2
```

インポート:
```
データパッケージ → メタデータをインポート → 
metadata.csv を選択
```

#### Excelでのメタデータ

※ Excelメタデータ連携は未対応です。メタデータはCSV（例: `metadata.csv`）で管理してください。

### データ検証

#### 自動検証

インポート時に自動的にチェック:

✅ **構造の確認**:
- ヘッダー行が存在
- 波数列が数値
- すべての行が同じ列数

✅ **データ品質の確認**:
- 欠損値の検出
- 外れ値の警告
- 負の値の検出
- 重複波数の検出

✅ **波数範囲の確認**:
- 波数が昇順
- 波数間隔の一貫性
- 一般的な範囲内（0-4000 cm⁻¹）

#### 手動検証

```
データパッケージ → データ品質 → レポート生成

レポート内容:
- サンプル数: 50
- 波数ポイント: 1601
- 波数範囲: 400-2000 cm⁻¹
- 平均間隔: 1.0 cm⁻¹
- 欠損値: 0
- 外れ値: 3（0.1%）
- ベースライン: 平均 0.15 ± 0.03
- ノイズレベル: SNR 45 dB
```

---

(ug-import-groups)=
## グループ管理

### グループの作成

#### 方法1: 手動作成

```
データパッケージ → グループ管理 → 新規グループ → 
グループ名を入力（例: "Control"）→ 作成

サンプルを選択 → グループに追加
```

#### 方法2: ファイル名から自動

```
データパッケージ → インポート → 
「ファイル名からグループを自動作成」にチェック

例:
control_001.csv → グループ "control"
control_002.csv → グループ "control"
treated_001.csv → グループ "treated"
```

#### 方法3: メタデータから

```
メタデータファイル（CSV）:
Sample,Group
sample_1,Control
sample_2,Control
sample_3,Treated

インポート:
データパッケージ → メタデータをインポート → 
自動的にグループ作成
```

### グループの編集

#### 名前の変更

```
グループ管理 → グループを選択 → 
名前を変更 → 新しい名前を入力
```

#### サンプルの移動

```
# ドラッグ＆ドロップ
サンプルを選択 → 新しいグループにドラッグ

# または
サンプルを選択 → 右クリック → 
「グループに移動」→ グループを選択
```

#### グループの結合

```
グループ管理 → 複数のグループを選択 → 
結合 → 新しい名前を入力
```

#### グループの分割

```
グループを選択 → 分割 → 
条件を指定:
- メタデータ列で分割
- ファイル名パターンで分割
- 手動選択
```

### グループの色とスタイル

#### カラーコーディング

```
グループ管理 → グループを選択 → 
色を設定 → カラーピッカーで選択

または
自動カラー割り当て:
グループ管理 → すべて選択 → 
「色を自動割り当て」
```

#### プロットスタイル

```
グループ管理 → グループを選択 → 
スタイル:
- 線の種類: 実線、破線、点線
- マーカー: ○、△、□、◇
- 線の太さ: 1-5 pt
```

---

(ug-import-validation)=
## データの検証と品質管理

### 品質メトリクス

#### S/N比（信号対雑音比）

```
データパッケージ → 品質評価 → SNR計算

SNR = ピーク強度 / ノイズ標準偏差

判定基準:
✓ SNR > 100: 優良
✓ SNR 50-100: 良好
✓ SNR 20-50: 許容
✗ SNR < 20: 不良（再測定推奨）
```

#### ベースライン安定性

```
データパッケージ → 品質評価 → 
ベースライン分析

メトリクス:
- 平均ベースライン: 0.15
- 標準偏差: 0.03
- 傾き: -0.0001 cm⁻¹
- ドリフト: 低（良好）
```

#### ピーク検出

```
データパッケージ → 品質評価 → 
ピーク検出

設定:
- 最小高さ: ベースラインの5倍
- 最小距離: 10 cm⁻¹
- 最小幅: 3ポイント

結果:
検出されたピーク: 15
主要ピーク位置: [1450, 1585, 1620, ...] cm⁻¹
```

### 外れ値の検出

#### 統計的外れ値

```
データパッケージ → 品質評価 → 
外れ値検出 → 統計的手法

方法:
1. Z-スコア法
	|z| > 3 を外れ値とする
   
2. IQR法（四分位範囲）
	Q1 - 1.5×IQR または Q3 + 1.5×IQR を超える
   
3. Isolation Forest
	機械学習ベースの検出
```

#### スペクトル比較

```
データパッケージ → 品質評価 → 
外れ値検出 → スペクトル類似度

手法:
- 相関係数 < 0.8
- ユークリッド距離 > 閾値
- 主成分空間での距離
```

#### 視覚的確認

```
データパッケージ → すべてのスペクトルを表示 → 
視覚的に確認

チェック項目:
□ 明らかに異なる形状
□ 強度が極端に異なる
□ ノイズレベルが高い
□ ベースラインが不安定
```

### データのクリーニング

#### 外れ値の除去

```
# 自動除去
データパッケージ → 品質評価 → 
外れ値検出 → 除去

# 手動除去
外れ値を選択 → 右クリック → 削除

# 除外（削除せず非表示）
外れ値を選択 → 右クリック → 
「分析から除外」
```

#### 欠損値の処理

```
データパッケージ → データクリーニング → 
欠損値の処理

オプション:
1. 線形補間
	前後の値から計算
   
2. スプライン補間
	滑らかな曲線で補間
   
3. 隣接スペクトルの平均
	同じグループの平均を使用
   
4. 除外
	欠損値を含む波数を除去
```

#### 重複の除去

```
データパッケージ → データクリーニング → 
重複を検出

判定基準:
- 完全一致: すべての値が同じ
- 類似度 > 99.9%: ほぼ同一

処理:
□ 最初のものを保持
□ 最後のものを保持
□ 平均を使用
□ すべて削除
```

---

(ug-import-projects)=
## プロジェクト管理

### プロジェクトの保存

#### 基本的な保存

```
ファイル → プロジェクトを保存 → 
ファイル名を入力 → 保存

含まれる内容:
✓ インポートされたデータ
✓ グループ情報
✓ 前処理パイプライン
✓ 分析結果
✓ 可視化設定
✓ メタデータ
```

#### 自動保存

```
設定 → プロジェクト → 自動保存 → 
有効化にチェック

オプション:
- 間隔: 5分、10分、15分
- 保存場所: デフォルト or カスタム
- バックアップ数: 1-10
```

#### バージョン管理

```
ファイル → プロジェクトを保存 → 
「新しいバージョンとして保存」

命名規則:
project_v1.raman
project_v2.raman
project_v3.raman

または日付:
project_2026-01-24.raman
project_2026-01-25.raman
```

### プロジェクトの読み込み

```
ファイル → プロジェクトを開く → 
ファイルを選択 → 開く

自動的に復元:
✓ すべてのデータ
✓ グループ構造
✓ 前処理パイプライン
✓ 分析結果
✓ ウィンドウ配置
```

### プロジェクトのエクスポート

#### 完全なエクスポート

現時点では、プロジェクト全体の一括エクスポート（例: プロジェクトをまとめて保存/共有する機能）は準備中です。

代替として、必要なデータと図は各タブのエクスポート機能から出力してください：

- データ: CSV / XLSX / JSON / TXT / PKL
- 図（プロット）: PNG / SVG

### テンプレートの使用

#### テンプレートの作成

```
現在のプロジェクト設定で:
ファイル → テンプレートとして保存 → 
テンプレート名を入力

保存される内容:
✓ 前処理パイプライン
✓ 分析設定
✓ 可視化設定
✓ グループ構造（空）
✗ 実際のデータ
```

#### テンプレートの使用

```
ファイル → 新しいプロジェクト → 
テンプレートから作成 → 選択

自動的に適用:
- 前処理設定
- 分析パラメータ
- プロットスタイル
```

---

(ug-import-export)=
## データのエクスポート

### 個別スペクトルのエクスポート

#### CSV形式

```
データパッケージ → スペクトルを選択 → 
右クリック → エクスポート → CSV

フォーマット:
Wavenumber,Intensity
400.0,0.1234
401.0,0.1345
...
```

#### Excel形式

```
データパッケージ → スペクトルを選択 →
右クリック → エクスポート → XLSX

※ 出力内容は、選択したデータ（生データ/前処理済みなど）に応じて異なります。
```

### バッチエクスポート

#### すべてのスペクトル

```
データパッケージ → すべて選択 → 
エクスポート → フォルダを選択

オプション:
□ 個別ファイル: 各スペクトルを別ファイルに
□ 結合ファイル: すべてを1つのファイルに
□ グループごと: グループ別にファイル作成
```

#### グループごと

```
データパッケージ → グループ管理 → 
グループを選択 → エクスポート

ファイル命名:
{GroupName}_combined.csv
または
{GroupName}/sample_001.csv
{GroupName}/sample_002.csv
```

### 前処理済みデータのエクスポート

```
前処理タブ → 結果 → エクスポート

含まれる内容:
1. 元のスペクトル（オプション）
2. 前処理済みスペクトル
3. 適用されたパイプライン情報
4. パラメータ設定

形式:
- CSV: 互換性高い
- XLSX: 表形式（Excelで閲覧可能）
- JSON / TXT / PKL: 用途に応じて選択
```

### 分析結果のエクスポート

#### PCA結果

```
分析タブ → PCA結果 → エクスポート

含まれる内容:
- スコア（主成分空間の座標）
- ローディング（各波数の寄与）
- 説明分散
- スクリープロット（画像）
- スコアプロット（画像）

形式: Excel（推奨）または CSV
※ 現時点では、XLSX または CSV（必要に応じて JSON/TXT/PKL）での出力を想定しています。
```

#### 統計分析結果

```
分析タブ → 統計結果 → エクスポート

含まれる内容:
- 検定統計量
- p値
- 効果量
- 信頼区間
- 多重比較補正結果

形式: Excel（表形式）または CSV
※ 現時点では、XLSX または CSV（必要に応じて JSON/TXT/PKL）での出力を想定しています。
```

#### 機械学習モデル

```
機械学習タブ → モデル → エクスポート

含まれる内容:
1. モデルファイル（.pkl）
	- トレーニング済みモデル
	- 前処理パイプライン
	- スケーラー
   
2. 付随ファイル（画像/メタデータなど）
	- PDFレポート出力は現時点では未対応です
   
3. 予測結果（CSV）
```

---

(ug-import-best-practices)=
## ベストプラクティス

### データ命名規則

#### 推奨されるファイル命名

```
良い例:
sample_control_001.csv
sample_control_002.csv
sample_treated_001.csv
sample_treated_002.csv

理由:
✓ 明確な構造
✓ 自動グループ化可能
✓ ソート順が論理的
✓ プログラムで処理しやすい
```

```
避けるべき例:
データ1.csv
最終版2.csv
test (1).csv
サンプルA.csv

理由:
✗ 構造が不明確
✗ 特殊文字/括弧
✗ 全角文字（互換性問題）
✗ 連番が不明確
```

### データ構造

#### フォルダ構成

```
project/
├── raw_data/
│   ├── control/
│   │   ├── sample_001.csv
│   │   ├── sample_002.csv
│   │   └── sample_003.csv
│   ├── treated/
│   │   ├── sample_001.csv
│   │   ├── sample_002.csv
│   │   └── sample_003.csv
│   └── metadata.csv
├── processed_data/
│   └── preprocessed_all.xlsx
├── results/
│   ├── pca_results.xlsx
│   ├── statistical_tests.xlsx
│   └── ml_model.pkl
├── figures/
│   ├── spectra_overview.png
│   ├── pca_score_plot.png
│   └── confusion_matrix.png
└── project.raman
```

### データバックアップ

#### 推奨バックアップ戦略

```
1. プロジェクトレベル
	- プロジェクトファイル（.raman）を定期的に保存
	- バージョン番号または日付を含める
   
2. 生データ
	- 元のCSVファイルを別の場所にバックアップ
	- 読み取り専用にして保護
   
3. 結果
	- 分析結果を定期的にエクスポート
	- 図とレポートも保存
   
4. 自動バックアップ
	設定 → プロジェクト → 自動バックアップ:
	- 場所: 外部ドライブ or クラウド
	- 頻度: 毎日
	- 保持: 過去30日分
```

### メタデータ管理

#### 重要なメタデータ

記録すべき情報:

```text
Sample,Group,Date,Time,Operator,Instrument,LaserPower,IntegrationTime,Replicate,Notes
S001,Control,2026-01-24,10:30,Alice,Raman-500,50mW,10s,1,Good quality
S002,Control,2026-01-24,10:35,Alice,Raman-500,50mW,10s,2,Good quality
S003,Treated,2026-01-24,10:40,Alice,Raman-500,50mW,10s,1,Slight fluorescence
S004,Treated,2026-01-24,10:45,Alice,Raman-500,50mW,10s,2,Good quality
```

**最小限のメタデータ**:
- サンプル ID
- グループ
- 測定日

**推奨される追加情報**:
- 測定時刻
- オペレーター
- 装置
- 測定条件（レーザー出力、積算時間など）
- レプリケート番号
- 品質に関するノート

### データ品質保証

#### 測定前チェックリスト

```
□ 装置の校正が最新
□ レーザー出力が安定
□ サンプルの配置が適切
□ バックグラウンド測定済み
□ 測定条件を記録
```

#### 測定後チェックリスト

```
□ SNR > 20
□ ベースラインが安定
□ 主要ピークが検出される
□ 飽和がない
□ ファイルが正しく保存された
□ バックアップが作成された
```

#### データインポート後チェックリスト

```
□ すべてのファイルがロードされた
□ 波数範囲が正しい
□ グループが正しく設定された
□ メタデータが関連付けられた
□ 外れ値をチェック
□ プロジェクトを保存
```

---

## 🔗 関連ドキュメント

- **[クイックスタート](../quick-start.md)** - 5分で開始
- **[前処理ガイド](preprocessing.md)** - データの前処理
- **[解析ガイド](analysis.md)** - データ解析
- **[FAQ](../faq.md)** - よくある質問
- **[トラブルシューティング](../troubleshooting.md)** - 問題解決

---

**最終更新**: 2026年1月24日 | **バージョン**: 1.0.0