対象:初心者〜中級者 | 環境:オンライン / ローカル |
受講期限:無制限 | 受講料金:500円 |
コース概要
- ブラウザとインターネットで実行可能(Google Colab利用)
- Jupyter Notebookを利用したプログラミング演習
- 決定木とランダムフォレストの概要
- 乳がん診断データからガン腫瘍の分類
- 不動産物件の価格予測
- PDF 約49ページ相当
- Pythonコード 約250行
- データセット 5種
学べる内容
機械学習には数多くの手法・アルゴリズムが存在しますが、本チュートリアルは「決定木」と「ランダムフォレスト」の2種類の機械学習手法にフォーカスをしています。
決定木とランダムフォレストですが「分類」「回帰」に適用が可能なことから多くの企業や組織で活用されている手法の一つです。本講座では7つの異なるデータセットを使いながら、2つの手法の概要や特徴、さらに機械学習ライブラリ(Scikit-learn)を使って「分類」と「回帰」の実装を行います。
初めて機械学習の手法を学ぶ方へ
本コースでは機械学習の前提知識が無くても受講は可能です。ただし、機械学習の概要や基礎知識があればより深い理解が得られます。初めて機械学習の手法を学ぶ方は下記の講座を先に受講されることをお勧めします。
チュートリアルに含まれない内容
機械学習の初学者向けのチュートリアルとなっており、本講座では決定木およびランダムフォレストの数学的な解説は含まれませんのでご了承ください。
決定木とは?
決定木ですが英語では「Decision Tree(ディシジョン・ツリー)」と呼ばれており、「教師あり学習」の手法の一つです。人気の理由の一つに「モデルが予測した結果の説明が明確かつ容易」という特徴があります。チュートリアルでは決定木の可視化を行い、モデルがどのような判断で予測を行っているのかのプロセスを確認します。
また、決定木ではその手法の特性から過学習に陥りやすい傾向にあります。なぜ過学習となりやすいのか、決定木の仕組み理解しながら紐解いていきましょう。
ランダムフォレストとは?
ランダムフォレストは「教師あり学習」の一つの手法で、名前にフォレスト(森)と入っていることからも想像しやすいですが、「決定木」を複数使って「森」とする手法です。
決定木と同様に「分類」「回帰」に適用が可能な機械学手法であり、決定木の短所である「過学習」を克服する仕組みも設けられています。本講座では決定木との違いやランダムフォレストの特徴を例題を使いながら解説します。
またランダムフォレストには「特徴量の重要度算出」という大きな利便性もあります。コーディング実習ではランダムフォレストを使って、特徴選択(予測の精度を向上するための特徴を選択するタスク)の実装も行います。
特徴
ブラウザーとインターネットで実行が可能
Google Colab(グーグル・コラボ)を利用することにより、特別な環境構築やインストールなどの作業を行うことなく、ブラウザのみで実行が可能です。チュートリアルでは、Google Colabの基本的な使い方、また自身のPCに環境構築を行う方法の詳細を説明しています。
実践に役立つ知識
- ランダムフォレストを使った特徴選択
- 初歩的な探索的データ解析(EDA)
- 特徴量エンジニアリングの考え方と練習
- モデル評価方法(混同行列 / 正解率 / RMSE)
受講資格
(必須)Pythonの基礎知識
(推薦)線形代数及び統計の初歩的な知識
(推薦)Numpy、Pandas、Matplotlibの初歩的な知識
原則として、Pythonの初歩的な知識がある前提となっています。「推薦」は必須ではありませんが、初歩的な知識があると、よりスムーズに受講が可能です。下記の「機械学習 準備編」の無料コースをご参照下さい。
- Numpy 入門(無料)
- Matplotlib 入門(無料)
- Pandas 入門(無料)
- 線形代数 入門(無料)
- 統計 入門 (前編)(無料)
- 統計 入門 (後編)(無料)
コース詳細
機械学習 チュートリアル 決定木とランダムフォレスト | ||
---|---|---|
Chapter 1 環境構築 | ||
【Windows編】Minicondaを利用した環境構築 | 約2,200文字 | |
【Mac】Minicondaを利用した環境構築 | 約1,900文字 | |
Google Colabを利用した環境構築 | 約2,100文字 | |
Chapter 2 決定木の概要 | ||
決定木とは? | 約1,000文字 | |
決定木の特徴 | 約1,200文字 | |
シンプルな分類木 | 18行 | |
シンプルな回帰木 | 13行 | |
Chapter 3 ランダムフォレストの概要 | ||
ランダムフォレストとは? | 約900文字 | |
ランダムフォレストの仕組み | 約800文字 | |
ランダムフォレストの特徴 | 約700文字 | |
ランダムフォレストで特徴選択 | 20行 | |
Chapter 4 決定木とランダムフォレストで分類 | ||
データセットについて | 約500文字 | |
評価方法について | 約700文字 | |
ライブラリとデータの読み込み | 18行 | |
データの確認 | 12行 | |
データの前処理 | 9行 | |
データの可視化 | 9行 | |
特徴選択 | 24行 | |
決定木のモデル訓練 | 15行 | |
ランダムフォレストのモデル訓練 | 6行 | |
Chapter 5 決定木とランダムフォレストで回帰 | ||
データセットについて | 約700文字 | |
評価方法 | 約300文字 | |
ライブラリとデータの読み込み | 13行 | |
EDAとデータ前処理 | 56行 | |
特徴量エンジニアリング | 17行 | |
特徴選択 | 8行 | |
決定木で予測 | 13行 | |
ランダムフォレストで予測 | 8行 |
レビュー
コデクサさんで無料コースを全て受講させて頂きました。機械学習の入門書籍などで全く理解できなかった数学や統計用語が理解できて本当に助かりました。基礎コースが終わったのでこちらの有料コースを受講させて頂きました。今までは線形代数や統計が、機械学習でどのように役に立つのか正直解っていませんでしたが、こちらのコースを受けて納得しました(笑)引き続き、新しい無料コース・チュートリアルの公開も期待しています!
講師からの返答
フィードバックありがとうございます!引き続き良質な無料コースとチュートリアルを公開できるようチーム一丸となって邁進していきます!
機械学習入門書籍を2冊ほど読んだのですが、どれもいまいちな印象でした。そんな中、codexaを見つけて無料コースから受講させていただきました。コンテンツの質が高く、説明も丁寧で助かります。ただ、コース内のコードはテキストで良いと思いますが、説明などのコンテンツは動画にして頂けるとより受講しやすいです。
講師からの返答
フィードバックありがとうございます!よりスムーズに学習を頂けるよう、動画コンテンツも引き続き制作してまいります!
kaggleで普段からランダムフォレストを使っていたので、この機会にしっかり勉強をしようと思い購入しました。無料コースは動画だったので、有料コースも動画ベースにして頂きたかったです。あと、もう少し数式を用いた解説も欲しかった。ただし、巷で出回っている「機械学習入門!」的な書籍よりかは圧倒的にコスパが高く内容も良かったです。
講師からの返答
フィードバックありがとうございます!引き続き良質な無料コースとチュートリアルを公開できるようチーム一丸となって邁進していきます!
会社の先輩から進められてコースを購入しました。環境構築不要でブラウザのみで学習できるのが良かったです。コースはよくまとまっていますが、もう少し複雑なデータを使った実例があればより良いと思いました。
講師からの返答
フィードバックありがとうございます!引き続き良質な無料コースとチュートリアルを公開できるようチーム一丸となって邁進していきます!
講師紹介
本コース「決定木/ランダムフォレスト 入門」はcodexa(コデクサ)の機械学習エンジニアチームにて製作・監修を行いました。アメリカでデータ分析の実績を積んだデータサイエンティストから、Webエンジニアから機械学習エンジニアへ転向をした人まで幅広い層が所属しています。上級者の一方的な講義ではなく、「初心者がいかに理解しやすいか」を目標としています。日経ソフトウェアへの記事執筆(2019年1月号)。