難易度:★★☆☆☆
機械学習や深層学習では「データ前処理が8割」と言われるほどデータ前処理は重要な作業となっています。 本講座では、表形式データやテキストデータなどのデータの前処理の方法について学んでいただきます。
データ分析や、機械学習や深層学習を行う際に必ずと言って良いほど行うタスクとは何でしょうか。
それが「データの前処理」です。データの前処理無くしては高精度なAIモデルやデータ可視化などを行うことはできません。
このGymを通してデータの前処理に関しての具体的は対処方法を学んでいただきます。他のコンテンツに比べて地道なことが多いですが、データ前処理はデータ分析の8割を占めると言われるほど重要な業務となっています。実際にプログラムを動かしてみながら学んでいきましょう。
Mission 1
本ミッションでは表形式のデータに対しての前処理方法を学んでいきます。
まず、前処理対象のデータがどのようなデータであるのかの概要を確認します。
その後、Pythonのライブラリを使って、ファイルからデータを読み込み、どのような項目があるのかを確認します。
最終的に簡単な可視化が行えるまでデータの前処理を行なっていきましょう。
Excel形式のデータを元にデータ分析可能な状態まで前処理を行なっていきます。
そのために、まずどんなデータであるのかの概要を確認していきましょう。
Excel形式のデータに前処理を行ない、データ分析を行いやすいデータに変更していきましょう。
Mission 2
本ミッションではテキスト形式のデータに対しての前処理方法を学んでいきます。
前回同様データの概要を確認し、その後テキストデータに関しての前処理方法を学んでいきます。
csv形式のテキストデータを元にデータの前処理を行います。
そのために、まずどんなデータであるのかの概要を確認していきましょう。
実際に安倍晋三さんのツイートのデータに対して、前処理を実施していきましょう。
今回は文書のデータを単語のデータに分割し、単語に対しての前処理を実施していきましょう
Mission 3
スクレイピングは、ウェブサイトから情報を取得し、その情報を加工して新たな情報を生成することです。
Webスクレイピングとも呼ばれ、スクレイピングを行うプログラムをスクレイパーと呼びます。
データ分析の際には様々なウェブサイトからデータをスクレイピングし、分析材料とすることが多くあります。
このミッションでは、BeautifulSoup4というライブラリを用いて任意のサイトからデータを取得する方法について学びます。
スクレイピングを行う前にいくつか事前に準備にすべきことがあるため、その準備を行いましょう
BeautifulSoup4を使って、必要なデータを取得し、整形する方法を学んでいきましょう。