データ前処理道場【Python】

Gym データ前処理道場【Python】

難易度：★★☆☆☆

業種
全業種共通

機械学習や深層学習では「データ前処理が8割」と言われるほどデータ前処理は重要な作業となっています。本講座では、表形式データやテキストデータなどのデータの前処理の方法について学んでいただきます。

修了証明書

他のユーザーの様子を見てみよう

4 時間
2,000 Exp
0 Videos
2 Slides
3 Missions
8 Tasks
38 Operations

Introduction 50 Exp

データ分析や、機械学習や深層学習を行う際に必ずと言って良いほど行うタスクとは何でしょうか。
それが「データの前処理」です。データの前処理無くしては高精度なAIモデルやデータ可視化などを行うことはできません。
このGymを通してデータの前処理に関しての具体的は対処方法を学んでいただきます。他のコンテンツに比べて地道なことが多いですが、データ前処理はデータ分析の8割を占めると言われるほど重要な業務となっています。実際にプログラムを動かしてみながら学んでいきましょう。

Slideを見る

Mission 1

表形式のデータに対しての前処理

本ミッションでは表形式のデータに対しての前処理方法を学んでいきます。
まず、前処理対象のデータがどのようなデータであるのかの概要を確認します。
その後、Pythonのライブラリを使って、ファイルからデータを読み込み、どのような項目があるのかを確認します。
最終的に簡単な可視化が行えるまでデータの前処理を行なっていきましょう。

Mission 2

テキストデータに対しての前処理

本ミッションではテキスト形式のデータに対しての前処理方法を学んでいきます。
前回同様データの概要を確認し、その後テキストデータに関しての前処理方法を学んでいきます。

Mission 3

スクレイピングデータに対しての前処理

スクレイピングは、ウェブサイトから情報を取得し、その情報を加工して新たな情報を生成することです。
Webスクレイピングとも呼ばれ、スクレイピングを行うプログラムをスクレイパーと呼びます。
データ分析の際には様々なウェブサイトからデータをスクレイピングし、分析材料とすることが多くあります。
このミッションでは、BeautifulSoup4というライブラリを用いて任意のサイトからデータを取得する方法について学びます。

Slide 1

スクレイピングとは

50 Exp