このページの文字数は約7920文字です。
探索的データ解析(EDA:Exploratory Data Analysis)は、機械学習などのデータ分析業務を実施する際に、前処理としてデータの理解を目的として実施する作業を指します。
Google Colaboratory
上記リンクからGoogle ColaboratoryのPythonコードにアクセスできます
探索的データ解析(EDA)は、データ分析を行う前の初期段階で実施されるプロセスです。統計的手法や視覚化を用いて、データセットの主要な特性を理解し、パターンを発見し、異常値やエラーを特定し、仮説を立てるために行われます。EDAは、データが持つ構造を把握し、後のデータ分析や機械学習モデルの構築においてどの変数が重要かを判断するのに役立ちます。つまり、データドリブンな現状分析です。
2. EDAの前処理で実行されること
EDAの前処理では、以下のような作業が含まれます:
- データの概観: データセットのサイズ、変数の型(数値、カテゴリカル、テキストなど)、基本統計量の確認。
- 欠損値の確認と処理: データセット内の欠損値の特定と、それらを削除するか、何らかの値で補完する戦略の決定。
- 外れ値の検出と処理: 異常値の検出と、それらをデータセットから削除するか、別の方法で処理する決定。
- 変数間の関係の調査: 相関行列の生成、ペアプロットや散布図を用いて変数間の関係を視覚的に分析。
- データの分布の確認: ヒストグラムや箱ひげ図などを用いて、各変数の分布を調べ、データの偏りや分布の特徴を把握。
- 変数の変換: データの正規化、標準化、カテゴリカルデータのエンコーディング(ワンホットエンコーディングなど)。
- 特徴量エンジニアリング: 既存のデータから新しい特徴量を作成し、モデルの性能を向上させる。
- テキストデータの処理: NLP(自然言語処理)手法を用いてテキストデータを処理し、トピックモデリングや感情分析などを行う。
- 時系列データの分析: 時系列データがある場合は、トレンド、季節性、周期性などを分析。
これらの前処理ステップにより、データをより深く理解し、分析やモデリングに向けてデータをクリーニングし、整形することが目的です。EDAは柔軟なプロセスであり、データの特性や分析の目的に応じて適宜調整されます。
データセット:今回はkaggleのtitanicのデータを使います
Titanicデータセットは1912年4月15日、処女航海中に、広く「不沈」と見なされていたRMSタイタニック号が氷山に衝突して沈没したことに関するものです。残念ながら、乗船者全員分の救命ボートが足りず、乗客乗員2224人のうち1502人が死亡しました。
生き残るには運の要素もあったが、一部のグループは他のグループよりも生き残る可能性が高かったようだ。