難易度:★★★☆☆
自然言語処理入門へようこそ! 本Gymでは自然言語処理を行う上で基本となる背景知識の取得を目標としています。 まず始めにテキストデータの基本的な扱い方を学んだ後、機械学習・深層学習を用いた自然言語処理の手法について紹介します。Missisonの終わりには実際に学んだ知識を活かして、英語で書かれた映画レビューデータをネガティブなものであるか、ポジティブなものであるか分類するモデルの作成を行います。本Gymにて自然言語処理の概念について理解し、身近にある言語データやコンペティションで提供される言語データを使って、実際にモデリングやデータ分析を行い知識の定着化を図りましょう。
Mission 1
自然言語・自然言語処理の特徴について学んだのち、本Gymの概観について説明します。
Mission 2
自然言語を解析する際に基本となる概念の取得を目指します。テキストデータは解析を行う前に特有の前処理を行う必要があります。文字列操作や前処理を通してテキストデータを解析しやすい形に変更を加えたのち、コンピュータで単語や文章のつながりを解析する方法について学びます。
自然言語処理の基礎として文字列の操作について学んでいきましょう。文字列とは、単語や文章のように文字が連なったものを指します。ストリング 、テキストと称する場合もあります。
自然言語処理を行う際の代表的な前処理方法について学びます。
Mission 3
自然言語を数値で表す方法として、単語のベクトル化、単語の並び順を確率で表現する等、数多くの手法が考案されてきました。本Missionでは自然言語を数値で表現する際に用いられる、機械学習の代表的なアルゴリズムについて学んでいきます。
文章を連続するN個の文字、またはN個の単語単位で単語を切り出す手法n-gramについて学んでいきましょう。
文章を含まれる単語とその頻度により表現する手法Bag of words(BoW)について学んでいきましょう。
文書中に含まれる単語の重要度を評価する手法の1つであるtf-idfについて学びます。
単語をベクトルで表現するWord2Vecについて紹介します。
Mission 4
自然言語の特徴として、文章は単語が連なったもの、つまり時系列データとみなすことが出来るという点が挙げられます。時系列データを扱う深層学習の手法が自然言語処理にも数多く応用されており、本Missionでは深層学習を用いた自然言語処理について、言語モデルの発展の流れを紹介します。
このタスクでは深層学習を用いた自然言語分析手法について学びます。
Mission 5
Bag of Wordsのアルゴリズムを用いて、英語で書かれた映画レビューがポジティブなものであるか、ネガティブなものであるか分類するモデルの作成を行います。
データを読み込み、内容を確認します。今回のデータは、レビューデータ(説明変数)、およびレビューデータを分類した結果(目的変数)共にテキストデータとなっているため、数値への変換が必要です。本Taskではまず目的変数の数値化までを行い、以降のTaskで説明変数をBag of Wordsを用いて数値化します。
映画レビューデータセットに自然言語処理の前処理を行います。
Bag of Wordsを用いて英語レビューデータをベクトル化します。
XGBoostを用いて、映画データデットの分類を行うモデルを作成します。