このページの文字数は約7920文字です。

探索的データ解析(EDA:Exploratory Data Analysis)は、機械学習などのデータ分析業務を実施する際に、前処理としてデータの理解を目的として実施する作業を指します。

1. 探索的データ解析(EDA)とは何か?

Google Colaboratory

上記リンクからGoogle ColaboratoryのPythonコードにアクセスできます

探索的データ解析(EDA)は、データ分析を行う前の初期段階で実施されるプロセスです。統計的手法や視覚化を用いて、データセットの主要な特性を理解し、パターンを発見し、異常値やエラーを特定し、仮説を立てるために行われます。EDAは、データが持つ構造を把握し、後のデータ分析や機械学習モデルの構築においてどの変数が重要かを判断するのに役立ちます。つまり、データドリブンな現状分析です。

2. EDAの前処理で実行されること

EDAの前処理では、以下のような作業が含まれます:

これらの前処理ステップにより、データをより深く理解し、分析やモデリングに向けてデータをクリーニングし、整形することが目的です。EDAは柔軟なプロセスであり、データの特性や分析の目的に応じて適宜調整されます。

データセット:今回はkaggleのtitanicのデータを使います

Titanicデータセットは1912年4月15日、処女航海中に、広く「不沈」と見なされていたRMSタイタニック号が氷山に衝突して沈没したことに関するものです。残念ながら、乗船者全員分の救命ボートが足りず、乗客乗員2224人のうち1502人が死亡しました。

生き残るには運の要素もあったが、一部のグループは他のグループよりも生き残る可能性が高かったようだ。