難易度:★★☆☆☆
グラフを描画するためのライブラリである「matplotlib」や「seaborn」を活用して、データからビジネス等にとって有益な情報を見出すために重要な「データの可視化」の方法について学習する講座です。
データ可視化道場へようこそ。
本Gymではデータの可視化に欠かせないライブラリ「matplotlib」や「seaborn」の基本的な使い方を学んでいきます。
まずはGymの概要とカリキュラムを紹介します。
Mission 1
データ分析の最終的な目的は、データからビジネス等にとって有益な情報を見出すことです。しかし、数値等で構成された膨大なデータを眺めるだけでそのデータが示す意味を理解することは人間にとって非常に困難です。データの可視化とは、人間が直感的に理解できるよう、膨大なデータの持つ意味をグラフ等を用いて視覚化することです。
可視化には主に以下のメリットがあります。
- データの特徴を人間にとって分かりやすく示すことができる
- 隠された課題を発見しやすくなる
- 社内外の第三者への共有や説明が容易になる
まずは、可視化に必要なライブラリであるmatplotlibやグラフの種類について学んでいきましょう。
このタスクでは、以下のトピックを扱います。
このタスクでは、以下のトピックを扱います。
Mission 2
可視化の準備が整ったら、折れ線グラフや棒グラフといった代表的なグラフの作成を通して、matplotlibの操作に慣れていただきます。
Mission 3
単に折れ線や棒グラフを描いただけでは、グラフとして不十分です。グラフが何を表しているかを読み手に理解させるためには、データの特徴を分かりやすく示す必要があります。
ここでは、グラフにタイトルを追加したりグラフの色を変えたりといった、グラフの操作について学習します。
Mission 4
特に大規模なデータを分析をする場合、様々な視点で作成したグラフを並べて描画したいことがあります。
これまでは1つのグラフしか扱ってきませんでしたが、ここでは複数のグラフを作成する方法を学習します。また、複数のグラフを扱う上で特に重要になる、figureとaxesという概念についても解説します。
このタスクでは、以下のトピックを扱います。
このタスクでは、以下のトピックを扱います。
Mission 5
複数のグラフを並べて描画する際にも、図全体のタイトルの追加や余白の調整などを行い、読み手にとって分かりやすくしてあげることが重要です。
ここでは、複数のグラフの操作方法を学習します。
このタスクでは、以下のトピックを扱います。
このタスクでは、以下のトピックを扱います。
Mission 6
データ分析を行う際には、データフレーム形式で読み込んだデータに様々な加工を施しながら、可視化を行うことがよくあります。データフレームを扱うライブラリであるpandasには、matplotlibの機能を包含した便利なグラフ作成関数が用意されており、これを使うことでデータフレームから簡単にグラフを作成することができます。
ここでは、pandasのグラフ作成関数の使い方を学びます。
Mission 7
pythonの代表的な可視化ライブラリに、matplotlibをベースに作られたseabornというものあります。これを使うと、綺麗なグラフを簡単に作成することができます。
ここでは、seabornで作成できるグラフの特徴や作り方を中心に学習します。