Quest 債務不履行リスクの低減

難易度:★★☆☆☆

  • 業種
  • 金融・保険
  • 不均衡データ
  • ダウンサンプリング
  • テーブル
  • 分類問題
  • ロジスティック回帰

金融会社では個人や法人にお金を貸す、いわゆる融資を行い、返済額に利子を上乗せすることで利益を得ています。しかし、様々な理由から貸したのに返済されない、貸し倒れというケースが発生します。貸し倒れは金融会社として大きな損失であるため、できる限り避けたいですが、一定確率で貸し倒れが起きることは避けられないのが現状です。したがって金融会社は、貸し倒れのリスクを可能な限り減らしたり、貸し倒れても利益がでるように適切に金利を設定したいと考えています。そこで本クエストでは、これまでの個人に関する負債者のデータを利用し、貸し倒れする負債者のパターンを精度高く予測するモデルを作成します。本クエストを通じて、分類問題の基本的な分析手順や、予測の対象となるデータの値の数に偏りがある不均衡データにおける分析方法について学びます。

  • 8 時間
  • 3,800 Exp
  • 15 Videos
  • 0 Slides
  • 5 Missions
  • 12 Tasks
  • 61 Operations

Introduction 50 Exp

あなたは良心的で有名な大手消費者金融に勤めるデータサイエンティストです。ある日、営業部門の部長さんとあなたの上司がこんな会話をしているのを耳にしました。
「最近、貸し倒れるケースが多くて困っているんだ。AIの力で貸し倒れそうなお客さんかどうか判別できないだろうか?」
「できなくはないけど、完璧じゃない。本当は完済できるのに、貸し倒れると間違って判定されるお客さんが一定数は出てしまうよ?」
「仕方ない、それでもいいから頼みます。今は藁でもつかみたい状況だから」
「了解。それなら顧客データが必要だけど、用意できる?」
「少しならすぐにでも用意できるよ。それじゃあ担当者を決めておいて。」
あなたは思いました。上司は妙に慎重な物言いをしてたけど、これは会社の業績アップに貢献できるチャンスではないか。ぜひこの仕事、私がやりたい!
そこであなたは迷わずこう言いました。「その仕事、私に任せてください!」
こうしてあなたは、貸し倒れる可能性が高い顧客かどうかを判別するモデル作成を担当することになりました。

Videoを再生する

Mission 1

顧客データの読み込み

あなたが貸し倒れ予測モデルの担当に決まってから程なくして、営業部長さんから顧客データが届きました。顧客データには負債者に関する様々な情報が含まれているとのことです。どのような情報が含まれているのでしょうか?データをプログラムで読み込んで確認してみましょう。本ミッションでは、分析の第一歩として重要なデータの読み込み方を学びます。また読み込んだデータが正しく読み込めたことを確認することも大切になりますので、確認の方法についても学んでいきます。

Video 1
顧客データの読み込み
    50 Exp

    Mission 2

    貸し倒れと関係性が高い要素を探索

    データを読み込んで確認したところ、各負債者ごとに貸し倒れたかどうかの情報の他に、借入総額や返済期間、金利、借入目的や信用スコアなどの情報が含まれていました。これらの要素は貸し倒れる可能性とどの程度の関係性があるでしょうか?関係性が高いのであれば予測に有効な情報となるので、調べてみましょう。本ミッションでは、分析の醍醐味の1つである探索的分析について学びます。データ分析ではデータの分布や数値等からデータの特徴を抽出し、それに基づき仮説を立てたり仮説の検証を行います。基本統計量や可視化の方法論についても学んでいきましょう。

    Video 1
    貸し倒れと関係性が高い要素を探索
      50 Exp

      Mission 3

      予測モデル作成前のデータ前処理

      貸し倒れる可能性と関係性の高い要素がわかったので、次にモデル作成の前の準備作業を実施しましょう。本ミッションではデータ前処理について学びます。ここでの前処理とはモデリングのための前処理についてです。適切な前処理をすることで、モデリングの精度を上げることができます。前処理の種類や、方法にどのようなものがあるのか学んでいきましょう。

      Video 1
      予測モデル作成前のデータ前処理
        50 Exp

        Mission 4

        貸し倒れを予測するモデル作成

        貸し倒れる可能性と関係性の高い要素がわかり、データの前処理もできました。いよいよ予測モデルを作る段階です。本ミッションではモデリング手法の1つ、ロジスティック回帰モデルについて学びます。モデルを作成することで、過去の実績から将来どうなるかを予測することができるようになります。具体的なモデルの作り方や作ったモデルの正しい評価方法について学んでいきましょう。

        Video 1
        貸し倒れを予測するモデル作成
          50 Exp

          Mission 5

          貸し倒れ予測モデルの改善

          ついに貸し倒れる可能性を予測するロジスティック回帰モデルが作れましたが、その精度はとても満足のいくものではありませんでした。もっと精度を上げることはできないでしょうか?手がかりは、ロジスティック回帰モデルにおける閾値(threshold)の概念や、予測の対象となるデータの値の数に偏りがある場合に有効なダウンサンプリングの手法などがあります。本ミッションでは、作成したモデルの予測精度をより改善する為の方法について学びます。ロジスティック回帰モデルにおける閾値(threshold)の調整方法や、ダウンサンプリング手法を使って、より良い予測モデル作成に挑戦しましょう。

          Video 1
          貸し倒れ予測モデルの改善
            50 Exp

            Conclusion 50 Exp

            本クエストでは、分類問題の1つとして貸し倒れるかどうかを予測する問題に挑戦しました。ただ予測モデルを作るだけでなく、予測モデルの精度を上げるために、貸し倒れに関係しそうな要素を仮説を立てて検証し、予測精度を改善する試みも行いました。その結果、予測精度を上げることができたと同時に、完済できるはずの人を貸し倒れると予測してしまう場合が一定数は出てしまう問題に気付くことができました。本クエストを通じて学んだこと、そしてクエストの成果をおさらいしましょう。

            Videoを再生する

            Competition

            債務不履行リスクの低減

            これまで学習したことを元に、SIGNATEの練習問題に挑戦してみましょう。このコンペでは、借入総額や返済期間、金利、借入目的などの顧客データを使って、債務不履行リスクを予測するモデルの構築にチャレンジします。

            Competitionに挑戦する