Gym データ前処理道場

  • データ前処理

機械学習や深層学習では「データ前処理が8割」と言われるほどデータ前処理は重要な作業となっています。
本講座では、表形式データやテキストデータなどのデータの前処理の方法について学んでいただきます。

  • 4 時間
  • 2,000 Exp
  • 0 Videos
  • 2 Slides
  • 3 Missions
  • 8 Tasks
  • 38 Operations

Introduction50 Exp

データ分析や、機械学習や深層学習を行う際に必ずと言って良いほど行うタスクとは何でしょうか。
それが「データの前処理」です。データの前処理無くしては高精度なAIモデルやデータ可視化などを行うことはできません。
このGymを通してデータの前処理に関しての具体的は対処方法を学んでいただきます。他のコンテンツに比べて地道なことが多いですが、データ前処理はデータ分析の8割を占めると言われるほど重要な業務となっています。実際にプログラムを動かしてみながら学んでいきましょう。

Slideを見る

Mission 1

表形式のデータに対しての前処理

本ミッションでは表形式のデータに対しての前処理方法を学んでいきます。
まず、前処理対象のデータがどのようなデータであるのかの概要を確認します。
その後、Pythonのライブラリを使って、ファイルからデータを読み込み、どのような項目があるのかを確認します。
最終的に簡単な可視化が行えるまでデータの前処理を行なっていきましょう。

Task 1
対象データの確認
150 Exp

Task 1

対象データの確認

  • 1 時間
  • 3 Operations
  • 150 Exp

Excel形式のデータを元にデータ分析可能な状態まで前処理を行なっていきます。
そのために、まずどんなデータであるのかの概要を確認していきましょう。

Task 2
データの読み込みと内容確認
150 Exp

Task 2

データの読み込みと内容確認

  • 1 時間
  • 3 Operations
  • 150 Exp

Excel形式のデータをpandasというライブラリを用いて、読み込ます。
前処理を行わない状態で読み込むとどのようなデータとして読み込まれるのかを確認していきましょう。

Task 3
表形式のデータに対しての前処理
400 Exp

Task 3

表形式のデータに対しての前処理

  • 1 時間
  • 8 Operations
  • 400 Exp

Excel形式のデータに前処理を行ない、データ分析を行いやすいデータに変更していきましょう。

Mission 2

テキストデータに対しての前処理

本ミッションではテキスト形式のデータに対しての前処理方法を学んでいきます。
前回同様データの概要を確認し、その後テキストデータに関しての前処理方法を学んでいきます。

Task 1
対象データの確認と読み込み
150 Exp

Task 1

対象データの確認と読み込み

  • 1 時間
  • 3 Operations
  • 150 Exp

csv形式のテキストデータを元にデータの前処理を行います。
そのために、まずどんなデータであるのかの概要を確認していきましょう。

Task 2
文章データに対しての前処理
350 Exp

Task 2

文章データに対しての前処理

  • 1 時間
  • 7 Operations
  • 350 Exp

実際に安倍晋三さんのツイートのデータに対して、前処理を実施していきましょう。

Task 3
単語データに対しての前処理
200 Exp

Task 3

単語データに対しての前処理

  • 1 時間
  • 4 Operations
  • 200 Exp

今回は文書のデータを単語のデータに分割し、単語に対しての前処理を実施していきましょう

Mission 3

スクレイピングデータに対しての前処理

スクレイピングは、ウェブサイトから情報を取得し、その情報を加工して新たな情報を生成することです。
Webスクレイピングとも呼ばれ、スクレイピングを行うプログラムをスクレイパーと呼びます。
データ分析の際には様々なウェブサイトからデータをスクレイピングし、分析材料とすることが多くあります。
このミッションでは、BeautifulSoup4というライブラリを用いて任意のサイトからデータを取得する方法について学びます。

Task 1
事前準備とデータ確認
200 Exp

Task 1

事前準備とデータ確認

  • 1 時間
  • 4 Operations
  • 200 Exp

スクレイピングを行う前にいくつか事前に準備にすべきことがあるため、その準備を行いましょう

Task 2
スクレイピングとデータ整形
300 Exp

Task 2

スクレイピングとデータ整形

  • 1 時間
  • 6 Operations
  • 300 Exp

BeautifulSoup4を使って、必要なデータを取得し、整形する方法を学んでいきましょう。

PAGE
TOP