R
データを探索的に分析し、傾向と外れ値を自動で可視化できる
by root4kaido
データの全体像を一目で把握できる:行数、列数、データ型、欠損値、基本統計量など、データセットの基本情報を自動で集計・表示します。 分布・相関・異常値を自動で可視化する:ヒストグラム、箱ひげ図、散布図、相関マトリックスなどの図表を自動生成し、データの傾向を視覚的に理解できます。 複数の分析視点で段階的に掘り下げられる:分析観点が変わるたびに連番ディレクトリ(eda001、eda002...)を作成し、異なる仮説検証を系統立てて進められます。 発見事項をレポートとして自動記録する:分析の目的・概要・発見事項を構造化されたMarkdownレポートに記録し、後から参照・共有できます。 重要な知見を一元管理できる:個別のEDAから重要な発見を抽出し、eda_summary.mdに集約することで、プロジェクト全体の学習が蓄積されます。 機械学習コンペを始めるときに、まずデータを理解したい人 新しいデータセットの性質を短時間で把握したい分析者 仮説検証のサイクルを回しながら段階的に分析を進めたい人 データの傾向から次のアクション(特徴量エンジニアリング、モデル選択など)を判断したい人 EDAはeda/内に連番ディレクトリ(eda001_xxx、eda002_xxx...)を作成して実施します。ディレクトリ構成は*.py(分析スクリプト)、report.md(レポート)、figures/(可視化画像)です。手順は(1)データパスの特定($ARGUMENTSで指定またはdatasets/を探索)→(2)次の連番ディレクトリ作成→(3)分析実施(EDAは実験内容と深い相互関係があり、仮説→実験→EDAのサイクルが大切)→(4)report.mdに分析目的・概要・発見事項を詳細記載→(5)重要な知見をeda_summary.mdに追記→(6)可視化をfigures/に保存です。連番は分析観点の変更ごとに更新し、発見をもとに精度向上の仮説を立てることが重要です。