データ管理ガイド

ラマンスペクトルデータの効果的な管理


📋 目次


データのインポート

サポートされている形式

アプリケーションは以下のデータ形式をサポートしています:

形式

拡張子

用途

特徴

CSV

.csv

推奨

最も互換性が高い、テキストエディタで編集可能

テキスト

.txt

簡易形式

タブまたはスペース区切り

ASC/ASCII

.asc, .ascii

簡易形式

タブまたはスペース区切り(装置出力で一般的)

PKL

.pkl

再利用

Python pickle(アプリ内データの保存/再利用)

基本的なインポート手順

方法1: メニューから

ファイル → インポート → データファイル → 
ファイルを選択 → 開く

方法2: ドラッグ&ドロップ

1. ファイルマネージャーでファイルを選択
2. アプリケーションウィンドウにドラッグ
3. 自動的にインポート開始

方法3: データパッケージタブから

1. 「データパッケージ」タブを選択
2. 「ファイルをインポート」ボタンをクリック
3. ファイルを選択

複数ファイルのインポート

バッチインポート

データパッケージ → ファイルをインポート → 
複数選択(Ctrl/Cmd + クリック)→ ロード

または

フォルダ全体をインポート:
データパッケージ → フォルダをインポート → 
フォルダを選択 → 対応ファイル(CSV/TXT/ASC/ASCII/PKL)を自動検出

注意事項:

  • すべてのファイルが同じ波数範囲である必要があります

  • 異なる波数範囲の場合は、リサンプリングが必要です

自動命名規則

ファイル名から自動的にサンプル名とグループを認識:

# ファイル名パターン
sample_A_001.csv → サンプル名: A_001, グループ: A
sample_A_002.csv → サンプル名: A_002, グループ: A
sample_B_001.csv → サンプル名: B_001, グループ: B

# カスタムパターン
設定 → データ → 命名規則 → 
パターン: {group}_{number}.csv
区切り文字: _

インポート設定

高度なオプション

データパッケージ → インポート → 詳細設定 → 

オプション:
□ ヘッダー行をスキップ: 最初のN行を無視
□ 波数列: 第1列(デフォルト)
□ 区切り文字: カンマ(CSV)、タブ(TXT)、自動検出
□ 小数点: ピリオド または カンマ
□ エンコーディング: UTF-8(推奨)、Shift-JIS、Latin-1
□ 欠損値の処理: 0で埋める、線形補間、除外

データ形式

標準CSV形式

推奨フォーマット

Wavenumber,Sample_1,Sample_2,Sample_3,Sample_4
400.0,0.1234,0.1456,0.1123,0.1345
401.0,0.1345,0.1567,0.1234,0.1456
402.0,0.1456,0.1678,0.1345,0.1567
403.0,0.1567,0.1789,0.1456,0.1678
...
2000.0,0.0234,0.0256,0.0223,0.0245

ポイント:

  • 第1列: 波数(昇順)

  • 第2列以降: 各サンプルの強度値

  • ヘッダー行: 列名を記述

  • 小数点: ピリオド(.)使用

  • 区切り: カンマ(,

転置形式(オプション)

Sample,400.0,401.0,402.0,403.0,...,2000.0
Sample_1,0.1234,0.1345,0.1456,0.1567,...,0.0234
Sample_2,0.1456,0.1567,0.1678,0.1789,...,0.0256
Sample_3,0.1123,0.1234,0.1345,0.1456,...,0.0223

インポート時に「転置」オプションを選択

Excel形式

現時点では、Excel(.xlsx/.xls)のインポートは未対応です。 必要な場合はCSVに変換してから読み込んでください。

メタデータの追加

メタデータファイル

# metadata.csv
Sample,Group,Date,Condition,Replicate
Sample_1,A,2026-01-24,Normal,1
Sample_2,A,2026-01-24,Normal,2
Sample_3,B,2026-01-24,Treated,1
Sample_4,B,2026-01-24,Treated,2

インポート:

データパッケージ → メタデータをインポート → 
metadata.csv を選択

Excelでのメタデータ

※ Excelメタデータ連携は未対応です。メタデータはCSV(例: metadata.csv)で管理してください。

データ検証

自動検証

インポート時に自動的にチェック:

構造の確認:

  • ヘッダー行が存在

  • 波数列が数値

  • すべての行が同じ列数

データ品質の確認:

  • 欠損値の検出

  • 外れ値の警告

  • 負の値の検出

  • 重複波数の検出

波数範囲の確認:

  • 波数が昇順

  • 波数間隔の一貫性

  • 一般的な範囲内(0-4000 cm⁻¹)

手動検証

データパッケージ → データ品質 → レポート生成

レポート内容:
- サンプル数: 50
- 波数ポイント: 1601
- 波数範囲: 400-2000 cm⁻¹
- 平均間隔: 1.0 cm⁻¹
- 欠損値: 0
- 外れ値: 3(0.1%)
- ベースライン: 平均 0.15 ± 0.03
- ノイズレベル: SNR 45 dB

グループ管理

グループの作成

方法1: 手動作成

データパッケージ → グループ管理 → 新規グループ → 
グループ名を入力(例: "Control")→ 作成

サンプルを選択 → グループに追加

方法2: ファイル名から自動

データパッケージ → インポート → 
「ファイル名からグループを自動作成」にチェック

例:
control_001.csv → グループ "control"
control_002.csv → グループ "control"
treated_001.csv → グループ "treated"

方法3: メタデータから

メタデータファイル(CSV):
Sample,Group
sample_1,Control
sample_2,Control
sample_3,Treated

インポート:
データパッケージ → メタデータをインポート → 
自動的にグループ作成

グループの編集

名前の変更

グループ管理 → グループを選択 → 
名前を変更 → 新しい名前を入力

サンプルの移動

# ドラッグ&ドロップ
サンプルを選択 → 新しいグループにドラッグ

# または
サンプルを選択 → 右クリック → 
「グループに移動」→ グループを選択

グループの結合

グループ管理 → 複数のグループを選択 → 
結合 → 新しい名前を入力

グループの分割

グループを選択 → 分割 → 
条件を指定:
- メタデータ列で分割
- ファイル名パターンで分割
- 手動選択

グループの色とスタイル

カラーコーディング

グループ管理 → グループを選択 → 
色を設定 → カラーピッカーで選択

または
自動カラー割り当て:
グループ管理 → すべて選択 → 
「色を自動割り当て」

プロットスタイル

グループ管理 → グループを選択 → 
スタイル:
- 線の種類: 実線、破線、点線
- マーカー: ○、△、□、◇
- 線の太さ: 1-5 pt

データの検証と品質管理

品質メトリクス

S/N比(信号対雑音比)

データパッケージ → 品質評価 → SNR計算

SNR = ピーク強度 / ノイズ標準偏差

判定基準:
✓ SNR > 100: 優良
✓ SNR 50-100: 良好
✓ SNR 20-50: 許容
✗ SNR < 20: 不良(再測定推奨)

ベースライン安定性

データパッケージ → 品質評価 → 
ベースライン分析

メトリクス:
- 平均ベースライン: 0.15
- 標準偏差: 0.03
- 傾き: -0.0001 cm⁻¹
- ドリフト: 低(良好)

ピーク検出

データパッケージ → 品質評価 → 
ピーク検出

設定:
- 最小高さ: ベースラインの5倍
- 最小距離: 10 cm⁻¹
- 最小幅: 3ポイント

結果:
検出されたピーク: 15
主要ピーク位置: [1450, 1585, 1620, ...] cm⁻¹

外れ値の検出

統計的外れ値

データパッケージ → 品質評価 → 
外れ値検出 → 統計的手法

方法:
1. Z-スコア法
	|z| > 3 を外れ値とする
   
2. IQR法(四分位範囲)
	Q1 - 1.5×IQR または Q3 + 1.5×IQR を超える
   
3. Isolation Forest
	機械学習ベースの検出

スペクトル比較

データパッケージ → 品質評価 → 
外れ値検出 → スペクトル類似度

手法:
- 相関係数 < 0.8
- ユークリッド距離 > 閾値
- 主成分空間での距離

視覚的確認

データパッケージ → すべてのスペクトルを表示 → 
視覚的に確認

チェック項目:
□ 明らかに異なる形状
□ 強度が極端に異なる
□ ノイズレベルが高い
□ ベースラインが不安定

データのクリーニング

外れ値の除去

# 自動除去
データパッケージ → 品質評価 → 
外れ値検出 → 除去

# 手動除去
外れ値を選択 → 右クリック → 削除

# 除外(削除せず非表示)
外れ値を選択 → 右クリック → 
「分析から除外」

欠損値の処理

データパッケージ → データクリーニング → 
欠損値の処理

オプション:
1. 線形補間
	前後の値から計算
   
2. スプライン補間
	滑らかな曲線で補間
   
3. 隣接スペクトルの平均
	同じグループの平均を使用
   
4. 除外
	欠損値を含む波数を除去

重複の除去

データパッケージ → データクリーニング → 
重複を検出

判定基準:
- 完全一致: すべての値が同じ
- 類似度 > 99.9%: ほぼ同一

処理:
□ 最初のものを保持
□ 最後のものを保持
□ 平均を使用
□ すべて削除

プロジェクト管理

プロジェクトの保存

基本的な保存

ファイル → プロジェクトを保存 → 
ファイル名を入力 → 保存

含まれる内容:
✓ インポートされたデータ
✓ グループ情報
✓ 前処理パイプライン
✓ 分析結果
✓ 可視化設定
✓ メタデータ

自動保存

設定 → プロジェクト → 自動保存 → 
有効化にチェック

オプション:
- 間隔: 5分、10分、15分
- 保存場所: デフォルト or カスタム
- バックアップ数: 1-10

バージョン管理

ファイル → プロジェクトを保存 → 
「新しいバージョンとして保存」

命名規則:
project_v1.raman
project_v2.raman
project_v3.raman

または日付:
project_2026-01-24.raman
project_2026-01-25.raman

プロジェクトの読み込み

ファイル → プロジェクトを開く → 
ファイルを選択 → 開く

自動的に復元:
✓ すべてのデータ
✓ グループ構造
✓ 前処理パイプライン
✓ 分析結果
✓ ウィンドウ配置

プロジェクトのエクスポート

完全なエクスポート

現時点では、プロジェクト全体の一括エクスポート(例: プロジェクトをまとめて保存/共有する機能)は準備中です。

代替として、必要なデータと図は各タブのエクスポート機能から出力してください:

  • データ: CSV / XLSX / JSON / TXT / PKL

  • 図(プロット): PNG / SVG

テンプレートの使用

テンプレートの作成

現在のプロジェクト設定で:
ファイル → テンプレートとして保存 → 
テンプレート名を入力

保存される内容:
✓ 前処理パイプライン
✓ 分析設定
✓ 可視化設定
✓ グループ構造(空)
✗ 実際のデータ

テンプレートの使用

ファイル → 新しいプロジェクト → 
テンプレートから作成 → 選択

自動的に適用:
- 前処理設定
- 分析パラメータ
- プロットスタイル

データのエクスポート

個別スペクトルのエクスポート

CSV形式

データパッケージ → スペクトルを選択 → 
右クリック → エクスポート → CSV

フォーマット:
Wavenumber,Intensity
400.0,0.1234
401.0,0.1345
...

Excel形式

データパッケージ → スペクトルを選択 →
右クリック → エクスポート → XLSX

※ 出力内容は、選択したデータ(生データ/前処理済みなど)に応じて異なります。

バッチエクスポート

すべてのスペクトル

データパッケージ → すべて選択 → 
エクスポート → フォルダを選択

オプション:
□ 個別ファイル: 各スペクトルを別ファイルに
□ 結合ファイル: すべてを1つのファイルに
□ グループごと: グループ別にファイル作成

グループごと

データパッケージ → グループ管理 → 
グループを選択 → エクスポート

ファイル命名:
{GroupName}_combined.csv
または
{GroupName}/sample_001.csv
{GroupName}/sample_002.csv

前処理済みデータのエクスポート

前処理タブ → 結果 → エクスポート

含まれる内容:
1. 元のスペクトル(オプション)
2. 前処理済みスペクトル
3. 適用されたパイプライン情報
4. パラメータ設定

形式:
- CSV: 互換性高い
- XLSX: 表形式(Excelで閲覧可能)
- JSON / TXT / PKL: 用途に応じて選択

分析結果のエクスポート

PCA結果

分析タブ → PCA結果 → エクスポート

含まれる内容:
- スコア(主成分空間の座標)
- ローディング(各波数の寄与)
- 説明分散
- スクリープロット(画像)
- スコアプロット(画像)

形式: Excel(推奨)または CSV
※ 現時点では、XLSX または CSV(必要に応じて JSON/TXT/PKL)での出力を想定しています。

統計分析結果

分析タブ → 統計結果 → エクスポート

含まれる内容:
- 検定統計量
- p値
- 効果量
- 信頼区間
- 多重比較補正結果

形式: Excel(表形式)または CSV
※ 現時点では、XLSX または CSV(必要に応じて JSON/TXT/PKL)での出力を想定しています。

機械学習モデル

機械学習タブ → モデル → エクスポート

含まれる内容:
1. モデルファイル(.pkl)
	- トレーニング済みモデル
	- 前処理パイプライン
	- スケーラー
   
2. 付随ファイル(画像/メタデータなど)
	- PDFレポート出力は現時点では未対応です
   
3. 予測結果(CSV)

ベストプラクティス

データ命名規則

推奨されるファイル命名

良い例:
sample_control_001.csv
sample_control_002.csv
sample_treated_001.csv
sample_treated_002.csv

理由:
✓ 明確な構造
✓ 自動グループ化可能
✓ ソート順が論理的
✓ プログラムで処理しやすい
避けるべき例:
データ1.csv
最終版2.csv
test (1).csv
サンプルA.csv

理由:
✗ 構造が不明確
✗ 特殊文字/括弧
✗ 全角文字(互換性問題)
✗ 連番が不明確

データ構造

フォルダ構成

project/
├── raw_data/
│   ├── control/
│   │   ├── sample_001.csv
│   │   ├── sample_002.csv
│   │   └── sample_003.csv
│   ├── treated/
│   │   ├── sample_001.csv
│   │   ├── sample_002.csv
│   │   └── sample_003.csv
│   └── metadata.csv
├── processed_data/
│   └── preprocessed_all.xlsx
├── results/
│   ├── pca_results.xlsx
│   ├── statistical_tests.xlsx
│   └── ml_model.pkl
├── figures/
│   ├── spectra_overview.png
│   ├── pca_score_plot.png
│   └── confusion_matrix.png
└── project.raman

データバックアップ

推奨バックアップ戦略

1. プロジェクトレベル
	- プロジェクトファイル(.raman)を定期的に保存
	- バージョン番号または日付を含める
   
2. 生データ
	- 元のCSVファイルを別の場所にバックアップ
	- 読み取り専用にして保護
   
3. 結果
	- 分析結果を定期的にエクスポート
	- 図とレポートも保存
   
4. 自動バックアップ
	設定 → プロジェクト → 自動バックアップ:
	- 場所: 外部ドライブ or クラウド
	- 頻度: 毎日
	- 保持: 過去30日分

メタデータ管理

重要なメタデータ

記録すべき情報:

Sample,Group,Date,Time,Operator,Instrument,LaserPower,IntegrationTime,Replicate,Notes
S001,Control,2026-01-24,10:30,Alice,Raman-500,50mW,10s,1,Good quality
S002,Control,2026-01-24,10:35,Alice,Raman-500,50mW,10s,2,Good quality
S003,Treated,2026-01-24,10:40,Alice,Raman-500,50mW,10s,1,Slight fluorescence
S004,Treated,2026-01-24,10:45,Alice,Raman-500,50mW,10s,2,Good quality

最小限のメタデータ:

  • サンプル ID

  • グループ

  • 測定日

推奨される追加情報:

  • 測定時刻

  • オペレーター

  • 装置

  • 測定条件(レーザー出力、積算時間など)

  • レプリケート番号

  • 品質に関するノート

データ品質保証

測定前チェックリスト

□ 装置の校正が最新
□ レーザー出力が安定
□ サンプルの配置が適切
□ バックグラウンド測定済み
□ 測定条件を記録

測定後チェックリスト

□ SNR > 20
□ ベースラインが安定
□ 主要ピークが検出される
□ 飽和がない
□ ファイルが正しく保存された
□ バックアップが作成された

データインポート後チェックリスト

□ すべてのファイルがロードされた
□ 波数範囲が正しい
□ グループが正しく設定された
□ メタデータが関連付けられた
□ 外れ値をチェック
□ プロジェクトを保存

🔗 関連ドキュメント


最終更新: 2026年1月24日 | バージョン: 1.0.0