Gym 自然言語処理入門

  • 言語
  • 言語分類
  • データ前処理

自然言語処理入門へようこそ!
本Gymでは自然言語処理を行う上で基本となる背景知識の取得を目標としています。
まず始めにテキストデータの基本的な扱い方を学んだ後、機械学習・深層学習を用いた自然言語処理の手法について紹介します。Missisonの終わりには実際に学んだ知識を活かして、英語で書かれた映画レビューデータをネガティブなものであるか、ポジティブなものであるか分類するモデルの作成を行います。本Gymにて自然言語処理の概念について理解し、身近にある言語データやコンペティションで提供される言語データを使って、実際にモデリングやデータ分析を行い知識の定着化を図りましょう。

  • 3 時間
  • 1,650 Exp
  • 0 Videos
  • 2 Slides
  • 5 Missions
  • 14 Tasks
  • 31 Operations

Mission 1

Introduction

自然言語・自然言語処理の特徴について学んだのち、本Gymの概観について説明します。

Mission 2

自然言語処理の基本

自然言語を解析する際に基本となる概念の取得を目指します。テキストデータは解析を行う前に特有の前処理を行う必要があります。文字列操作や前処理を通してテキストデータを解析しやすい形に変更を加えたのち、コンピュータで単語や文章のつながりを解析する方法について学びます。

Task 1
文字列の操作
150 Exp

Task 1

文字列の操作

  • 1 時間
  • 3 Operations
  • 150 Exp


自然言語処理の基礎として文字列の操作について学んでいきましょう。文字列とは、単語や文章のように文字が連なったものを指します。ストリング 、テキストと称する場合もあります。

Task 2
自然言語の前処理
200 Exp

Task 2

自然言語の前処理

  • 1 時間
  • 4 Operations
  • 200 Exp

自然言語処理を行う際の代表的な前処理方法について学びます。

Task 3
形態素解析
150 Exp

Task 3

形態素解析

  • 1 時間
  • 3 Operations
  • 150 Exp

自然言語の世界では、テキストデータを文そのままをとして用いずに、単語の集まり(集合)として解析、分析することが多いです。ここではテキストを単語へ分割し、品詞の分析を行う形態素解析について学んでいきます。

Task 4
構文解析
100 Exp

Task 4

構文解析

  • 1 時間
  • 2 Operations
  • 100 Exp

テキストを単語に分割し、その間の関連を図式化することで単語同士のつながりを調べる構文解析について学んでいきます。

Mission 3

自然言語処理の手法(機械学習)

自然言語を数値で表す方法として、単語のベクトル化、単語の並び順を確率で表現する等、数多くの手法が考案されてきました。本Missionでは自然言語を数値で表現する際に用いられる、機械学習の代表的なアルゴリズムについて学んでいきます。

Task 1
n-gram
50 Exp

Task 1

n-gram

  • 1 時間
  • 1 Operations
  • 50 Exp


文章を連続するN個の文字、またはN個の単語単位で単語を切り出す手法n-gramについて学んでいきましょう。

Task 2
Bag of Words
50 Exp

Task 2

Bag of Words

  • 1 時間
  • 1 Operations
  • 50 Exp


文章を含まれる単語とその頻度により表現する手法Bag of words(BoW)について学んでいきましょう。

Task 3
tf-idf
100 Exp

Task 3

tf-idf

  • 1 時間
  • 2 Operations
  • 100 Exp

文書中に含まれる単語の重要度を評価する手法の1つであるtf-idfについて学びます。

Task 4
LDA
100 Exp

Task 4

LDA

  • 1 時間
  • 2 Operations
  • 100 Exp

トピックモデルの一つであるLDAについて紹介します。

Task 5
Word2Vec
100 Exp

Task 5

Word2Vec

  • 1 時間
  • 2 Operations
  • 100 Exp

単語をベクトルで表現するWord2Vecについて紹介します。

Mission 4

自然言語処理の手法(深層学習)

自然言語の特徴として、文章は単語が連なったもの、つまり時系列データとみなすことが出来るという点が挙げられます。時系列データを扱う深層学習の手法が自然言語処理にも数多く応用されており、本Missionでは深層学習を用いた自然言語処理について、言語モデルの発展の流れを紹介します。

Task 1
自然言語処理の手法(深層学習)
150 Exp

Task 1

自然言語処理の手法(深層学習)

  • 1 時間
  • 3 Operations
  • 150 Exp


このタスクでは深層学習を用いた自然言語分析手法について学びます。

Mission 5

自然言語処理の実践(映画レビュー分類)

Bag of Wordsのアルゴリズムを用いて、英語で書かれた映画レビューがポジティブなものであるか、ネガティブなものであるか分類するモデルの作成を行います。

Task 1
データの読み込みと目的変数の数値化
150 Exp

Task 1

データの読み込みと目的変数の数値化

  • 1 時間
  • 3 Operations
  • 150 Exp

データを読み込み、内容を確認します。今回のデータは、レビューデータ(説明変数)、およびレビューデータを分類した結果(目的変数)共にテキストデータとなっているため、数値への変換が必要です。本Taskではまず目的変数の数値化までを行い、以降のTaskで説明変数をBag of Wordsを用いて数値化します。

Task 2
前処理
50 Exp

Task 2

前処理

  • 1 時間
  • 1 Operations
  • 50 Exp

映画レビューデータセットに自然言語処理の前処理を行います。

Task 3
Bag of Words
50 Exp

Task 3

Bag of Words

  • 1 時間
  • 1 Operations
  • 50 Exp

Bag of Wordsを用いて英語レビューデータをベクトル化します。

Task 4
モデリング
150 Exp

Task 4

モデリング

  • 1 時間
  • 3 Operations
  • 150 Exp

XGBoostを用いて、映画データデットの分類を行うモデルを作成します。

PAGE
TOP