データ管理ガイド

ラマンスペクトルデータの効果的な管理

📋 目次

データのインポート
データ形式
グループ管理
データの検証と品質管理
プロジェクト管理
データのエクスポート
ベストプラクティス

データのインポート

サポートされている形式

アプリケーションは以下のデータ形式をサポートしています:

形式	拡張子	用途	特徴
CSV	`.csv`	推奨	最も互換性が高い、テキストエディタで編集可能
テキスト	`.txt`	簡易形式	タブまたはスペース区切り
ASC/ASCII	`.asc`, `.ascii`	簡易形式	タブまたはスペース区切り（装置出力で一般的）
PKL	`.pkl`	再利用	Python pickle（アプリ内データの保存/再利用）

基本的なインポート手順

方法1: メニューから

ファイル → インポート → データファイル → 
ファイルを選択 → 開く

方法2: ドラッグ＆ドロップ

ファイルマネージャーでファイルを選択
アプリケーションウィンドウにドラッグ
自動的にインポート開始

方法3: データパッケージタブから

「データパッケージ」タブを選択
「ファイルをインポート」ボタンをクリック
ファイルを選択

複数ファイルのインポート

バッチインポート

データパッケージ → ファイルをインポート → 
複数選択（Ctrl/Cmd + クリック）→ ロード

または

フォルダ全体をインポート:
データパッケージ → フォルダをインポート → 
フォルダを選択 → 対応ファイル（CSV/TXT/ASC/ASCII/PKL）を自動検出

注意事項:

すべてのファイルが同じ波数範囲である必要があります
異なる波数範囲の場合は、リサンプリングが必要です

自動命名規則

ファイル名から自動的にサンプル名とグループを認識:

# ファイル名パターン
sample_A_001.csv → サンプル名: A_001, グループ: A
sample_A_002.csv → サンプル名: A_002, グループ: A
sample_B_001.csv → サンプル名: B_001, グループ: B

# カスタムパターン
設定 → データ → 命名規則 → 
パターン: {group}_{number}.csv
区切り文字: _

インポート設定

高度なオプション

データパッケージ → インポート → 詳細設定 → 

オプション:
□ ヘッダー行をスキップ: 最初のN行を無視
□ 波数列: 第1列（デフォルト）
□ 区切り文字: カンマ（CSV）、タブ（TXT）、自動検出
□ 小数点: ピリオド または カンマ
□ エンコーディング: UTF-8（推奨）、Shift-JIS、Latin-1
□ 欠損値の処理: 0で埋める、線形補間、除外

データ形式

標準CSV形式

推奨フォーマット

Wavenumber,Sample_1,Sample_2,Sample_3,Sample_4
0,0.1234,0.1456,0.1123,0.1345
0,0.1345,0.1567,0.1234,0.1456
0,0.1456,0.1678,0.1345,0.1567
0,0.1567,0.1789,0.1456,0.1678
...
0,0.0234,0.0256,0.0223,0.0245

ポイント:

第1列: 波数（昇順）
第2列以降: 各サンプルの強度値
ヘッダー行: 列名を記述
小数点: ピリオド（.）使用
区切り: カンマ（,）

転置形式（オプション）

Sample,400.0,401.0,402.0,403.0,...,2000.0
Sample_1,0.1234,0.1345,0.1456,0.1567,...,0.0234
Sample_2,0.1456,0.1567,0.1678,0.1789,...,0.0256
Sample_3,0.1123,0.1234,0.1345,0.1456,...,0.0223

インポート時に「転置」オプションを選択

Excel形式

現時点では、Excel（.xlsx/.xls）のインポートは未対応です。必要な場合はCSVに変換してから読み込んでください。

メタデータの追加

メタデータファイル

# metadata.csv
Sample,Group,Date,Condition,Replicate
Sample_1,A,2026-01-24,Normal,1
Sample_2,A,2026-01-24,Normal,2
Sample_3,B,2026-01-24,Treated,1
Sample_4,B,2026-01-24,Treated,2

インポート:

データパッケージ → メタデータをインポート → 
metadata.csv を選択

Excelでのメタデータ

※ Excelメタデータ連携は未対応です。メタデータはCSV（例: metadata.csv）で管理してください。

データ検証

自動検証

インポート時に自動的にチェック:

✅ 構造の確認:

ヘッダー行が存在
波数列が数値
すべての行が同じ列数

✅ データ品質の確認:

欠損値の検出
外れ値の警告
負の値の検出
重複波数の検出

✅ 波数範囲の確認:

波数が昇順
波数間隔の一貫性
一般的な範囲内（0-4000 cm⁻¹）

手動検証

データパッケージ → データ品質 → レポート生成

レポート内容:
- サンプル数: 50
- 波数ポイント: 1601
- 波数範囲: 400-2000 cm⁻¹
- 平均間隔: 1.0 cm⁻¹
- 欠損値: 0
- 外れ値: 3（0.1%）
- ベースライン: 平均 0.15 ± 0.03
- ノイズレベル: SNR 45 dB

グループ管理

グループの作成

方法1: 手動作成

データパッケージ → グループ管理 → 新規グループ → 
グループ名を入力（例: "Control"）→ 作成

サンプルを選択 → グループに追加

方法2: ファイル名から自動

データパッケージ → インポート → 
「ファイル名からグループを自動作成」にチェック

例:
control_001.csv → グループ "control"
control_002.csv → グループ "control"
treated_001.csv → グループ "treated"

方法3: メタデータから

メタデータファイル（CSV）:
Sample,Group
sample_1,Control
sample_2,Control
sample_3,Treated

インポート:
データパッケージ → メタデータをインポート → 
自動的にグループ作成

グループの編集

名前の変更

グループ管理 → グループを選択 → 
名前を変更 → 新しい名前を入力

サンプルの移動

# ドラッグ＆ドロップ
サンプルを選択 → 新しいグループにドラッグ

# または
サンプルを選択 → 右クリック → 
「グループに移動」→ グループを選択

グループの結合

グループ管理 → 複数のグループを選択 → 
結合 → 新しい名前を入力

グループの分割

グループを選択 → 分割 → 
条件を指定:
- メタデータ列で分割
- ファイル名パターンで分割
- 手動選択

グループの色とスタイル

カラーコーディング

グループ管理 → グループを選択 → 
色を設定 → カラーピッカーで選択

または
自動カラー割り当て:
グループ管理 → すべて選択 → 
「色を自動割り当て」

プロットスタイル

グループ管理 → グループを選択 → 
スタイル:
- 線の種類: 実線、破線、点線
- マーカー: ○、△、□、◇
- 線の太さ: 1-5 pt

データの検証と品質管理

品質メトリクス

S/N比（信号対雑音比）

データパッケージ → 品質評価 → SNR計算

SNR = ピーク強度 / ノイズ標準偏差

判定基準:
✓ SNR > 100: 優良
✓ SNR 50-100: 良好
✓ SNR 20-50: 許容
✗ SNR < 20: 不良（再測定推奨）

ベースライン安定性

データパッケージ → 品質評価 → 
ベースライン分析

メトリクス:
- 平均ベースライン: 0.15
- 標準偏差: 0.03
- 傾き: -0.0001 cm⁻¹
- ドリフト: 低（良好）

ピーク検出

データパッケージ → 品質評価 → 
ピーク検出

設定:
- 最小高さ: ベースラインの5倍
- 最小距離: 10 cm⁻¹
- 最小幅: 3ポイント

結果:
検出されたピーク: 15
主要ピーク位置: [1450, 1585, 1620, ...] cm⁻¹

外れ値の検出

統計的外れ値

データパッケージ → 品質評価 → 
外れ値検出 → 統計的手法

方法:
1. Z-スコア法
	|z| > 3 を外れ値とする
   
2. IQR法（四分位範囲）
	Q1 - 1.5×IQR または Q3 + 1.5×IQR を超える
   
3. Isolation Forest
	機械学習ベースの検出

スペクトル比較

データパッケージ → 品質評価 → 
外れ値検出 → スペクトル類似度

手法:
- 相関係数 < 0.8
- ユークリッド距離 > 閾値
- 主成分空間での距離

視覚的確認

データパッケージ → すべてのスペクトルを表示 → 
視覚的に確認

チェック項目:
□ 明らかに異なる形状
□ 強度が極端に異なる
□ ノイズレベルが高い
□ ベースラインが不安定

データのクリーニング

外れ値の除去

# 自動除去
データパッケージ → 品質評価 → 
外れ値検出 → 除去

# 手動除去
外れ値を選択 → 右クリック → 削除

# 除外（削除せず非表示）
外れ値を選択 → 右クリック → 
「分析から除外」

欠損値の処理

データパッケージ → データクリーニング → 
欠損値の処理

オプション:
1. 線形補間
	前後の値から計算
   
2. スプライン補間
	滑らかな曲線で補間
   
3. 隣接スペクトルの平均
	同じグループの平均を使用
   
4. 除外
	欠損値を含む波数を除去

重複の除去

データパッケージ → データクリーニング → 
重複を検出

判定基準:
- 完全一致: すべての値が同じ
- 類似度 > 99.9%: ほぼ同一

処理:
□ 最初のものを保持
□ 最後のものを保持
□ 平均を使用
□ すべて削除

プロジェクト管理

プロジェクトの保存

基本的な保存

ファイル → プロジェクトを保存 → 
ファイル名を入力 → 保存

含まれる内容:
✓ インポートされたデータ
✓ グループ情報
✓ 前処理パイプライン
✓ 分析結果
✓ 可視化設定
✓ メタデータ

自動保存

設定 → プロジェクト → 自動保存 → 
有効化にチェック

オプション:
- 間隔: 5分、10分、15分
- 保存場所: デフォルト or カスタム
- バックアップ数: 1-10

バージョン管理

ファイル → プロジェクトを保存 → 
「新しいバージョンとして保存」

命名規則:
project_v1.raman
project_v2.raman
project_v3.raman

または日付:
project_2026-01-24.raman
project_2026-01-25.raman

プロジェクトの読み込み

ファイル → プロジェクトを開く → 
ファイルを選択 → 開く

自動的に復元:
✓ すべてのデータ
✓ グループ構造
✓ 前処理パイプライン
✓ 分析結果
✓ ウィンドウ配置

プロジェクトのエクスポート

完全なエクスポート

現時点では、プロジェクト全体の一括エクスポート（例: プロジェクトをまとめて保存/共有する機能）は準備中です。

代替として、必要なデータと図は各タブのエクスポート機能から出力してください：

データ: CSV / XLSX / JSON / TXT / PKL
図（プロット）: PNG / SVG

テンプレートの使用

テンプレートの作成

現在のプロジェクト設定で:
ファイル → テンプレートとして保存 → 
テンプレート名を入力

保存される内容:
✓ 前処理パイプライン
✓ 分析設定
✓ 可視化設定
✓ グループ構造（空）
✗ 実際のデータ

テンプレートの使用

ファイル → 新しいプロジェクト → 
テンプレートから作成 → 選択

自動的に適用:
- 前処理設定
- 分析パラメータ
- プロットスタイル

データのエクスポート

個別スペクトルのエクスポート

CSV形式

データパッケージ → スペクトルを選択 → 
右クリック → エクスポート → CSV

フォーマット:
Wavenumber,Intensity
400.0,0.1234
401.0,0.1345
...

Excel形式

データパッケージ → スペクトルを選択 →
右クリック → エクスポート → XLSX

※ 出力内容は、選択したデータ（生データ/前処理済みなど）に応じて異なります。

バッチエクスポート

すべてのスペクトル

データパッケージ → すべて選択 → 
エクスポート → フォルダを選択

オプション:
□ 個別ファイル: 各スペクトルを別ファイルに
□ 結合ファイル: すべてを1つのファイルに
□ グループごと: グループ別にファイル作成

グループごと

データパッケージ → グループ管理 → 
グループを選択 → エクスポート

ファイル命名:
{GroupName}_combined.csv
または
{GroupName}/sample_001.csv
{GroupName}/sample_002.csv

前処理済みデータのエクスポート

前処理タブ → 結果 → エクスポート

含まれる内容:
1. 元のスペクトル（オプション）
2. 前処理済みスペクトル
3. 適用されたパイプライン情報
4. パラメータ設定

形式:
- CSV: 互換性高い
- XLSX: 表形式（Excelで閲覧可能）
- JSON / TXT / PKL: 用途に応じて選択

分析結果のエクスポート

PCA結果

分析タブ → PCA結果 → エクスポート

含まれる内容:
- スコア（主成分空間の座標）
- ローディング（各波数の寄与）
- 説明分散
- スクリープロット（画像）
- スコアプロット（画像）

形式: Excel（推奨）または CSV
※ 現時点では、XLSX または CSV（必要に応じて JSON/TXT/PKL）での出力を想定しています。

統計分析結果

分析タブ → 統計結果 → エクスポート

含まれる内容:
- 検定統計量
- p値
- 効果量
- 信頼区間
- 多重比較補正結果

形式: Excel（表形式）または CSV
※ 現時点では、XLSX または CSV（必要に応じて JSON/TXT/PKL）での出力を想定しています。

機械学習モデル

機械学習タブ → モデル → エクスポート

含まれる内容:
1. モデルファイル（.pkl）
	- トレーニング済みモデル
	- 前処理パイプライン
	- スケーラー
   
2. 付随ファイル（画像/メタデータなど）
	- PDFレポート出力は現時点では未対応です
   
3. 予測結果（CSV）

ベストプラクティス

データ命名規則

推奨されるファイル命名

良い例:
sample_control_001.csv
sample_control_002.csv
sample_treated_001.csv
sample_treated_002.csv

理由:
✓ 明確な構造
✓ 自動グループ化可能
✓ ソート順が論理的
✓ プログラムで処理しやすい

避けるべき例:
データ1.csv
最終版2.csv
test (1).csv
サンプルA.csv

理由:
✗ 構造が不明確
✗ 特殊文字/括弧
✗ 全角文字（互換性問題）
✗ 連番が不明確

データ構造

フォルダ構成

project/
├── raw_data/
│   ├── control/
│   │   ├── sample_001.csv
│   │   ├── sample_002.csv
│   │   └── sample_003.csv
│   ├── treated/
│   │   ├── sample_001.csv
│   │   ├── sample_002.csv
│   │   └── sample_003.csv
│   └── metadata.csv
├── processed_data/
│   └── preprocessed_all.xlsx
├── results/
│   ├── pca_results.xlsx
│   ├── statistical_tests.xlsx
│   └── ml_model.pkl
├── figures/
│   ├── spectra_overview.png
│   ├── pca_score_plot.png
│   └── confusion_matrix.png
└── project.raman

データバックアップ

推奨バックアップ戦略

1. プロジェクトレベル
	- プロジェクトファイル（.raman）を定期的に保存
	- バージョン番号または日付を含める
   
2. 生データ
	- 元のCSVファイルを別の場所にバックアップ
	- 読み取り専用にして保護
   
3. 結果
	- 分析結果を定期的にエクスポート
	- 図とレポートも保存
   
4. 自動バックアップ
	設定 → プロジェクト → 自動バックアップ:
	- 場所: 外部ドライブ or クラウド
	- 頻度: 毎日
	- 保持: 過去30日分

メタデータ管理

重要なメタデータ

記録すべき情報:

Sample,Group,Date,Time,Operator,Instrument,LaserPower,IntegrationTime,Replicate,Notes
S001,Control,2026-01-24,10:30,Alice,Raman-500,50mW,10s,1,Good quality
S002,Control,2026-01-24,10:35,Alice,Raman-500,50mW,10s,2,Good quality
S003,Treated,2026-01-24,10:40,Alice,Raman-500,50mW,10s,1,Slight fluorescence
S004,Treated,2026-01-24,10:45,Alice,Raman-500,50mW,10s,2,Good quality

最小限のメタデータ:

サンプル ID
グループ
測定日

推奨される追加情報:

測定時刻
オペレーター
装置
測定条件（レーザー出力、積算時間など）
レプリケート番号
品質に関するノート

データ品質保証

測定前チェックリスト

□ 装置の校正が最新
□ レーザー出力が安定
□ サンプルの配置が適切
□ バックグラウンド測定済み
□ 測定条件を記録

測定後チェックリスト

□ SNR > 20
□ ベースラインが安定
□ 主要ピークが検出される
□ 飽和がない
□ ファイルが正しく保存された
□ バックアップが作成された

データインポート後チェックリスト

□ すべてのファイルがロードされた
□ 波数範囲が正しい
□ グループが正しく設定された
□ メタデータが関連付けられた
□ 外れ値をチェック
□ プロジェクトを保存

🔗 関連ドキュメント

クイックスタート - 5分で開始
前処理ガイド - データの前処理
解析ガイド - データ解析
FAQ - よくある質問
トラブルシューティング - 問題解決

最終更新: 2026年1月24日 | バージョン: 1.0.0