ようこそ、pythonで始める機械学習スターターコースへ。
「データ分析」、「機械学習」を学びたいとお考えの方々、漠然とした部分的理解を体系的に整理したいという方々、自信を持って本コースをおすすめいたします。
長時間のコースとなりますが、セクションを適切に分割しているため、途中で道に迷うことなく最後までワンステップずつ受講を進めていただけます。
ディープラーニング、人工知能の分野に関心がある方々にとっても、本コースは最適なファーストステップとなるはずです。
本コースの最終目標は、皆さんが新規のデータセットを自ら分析・整理し、機械学習モデルを構築し、評価できるようになることです。18時間以上にも及ぶ学習コースの中で、その目標達成に必要となる事柄を広く深く、丁寧に解説しています。データ分析・機械学習のベースとして、このコースはパーフェクトな内容に仕上がっていると自負しております。
豊富な演習問題(240題以上、合計で400問以上のExercise)を通して各セクションで学んだ内容を着実に身に付けていくことができます。学習効率を考慮して、演習問題のビデオには音声解説は付けず、短時間で繰り返し確認してもらえるようにまとめています(倍速などで無駄なくスピーディーに復習できます)。
最後のKaggle(世界最大の機械学習コンペのプラットフォーム)のセクションに至る頃には、テンポよく、楽しみながらデータの分析やモデルの構築などを進められるようになっているはずです。「次はどんなデータセットに挑戦してみようか?」と自ら動き出せる段階まで、皆さんを導いていきます。
機械学習のモデルにはscikit-learnに含まれる代表的なアルゴリズムを使用します。本コースは元々、Pandasのデータフレームの操作とMatplotlib/Seabornでのデータの視覚化までを計画していました。ですが、皆さんの目標である実践までを含んだ内容を提供すべきだと考え直し、別に予定していたコースを合併し1本に集約しています。
長時間のコースとは言え、当然すべてを網羅できるわけではなく、ニューラルネットワーク、ディープラーニングの分野へは到底踏み込むことはできません。本コースでは教師あり学習の代表的なアルゴリズムに絞って回帰や分類の課題に集中的に取り組み、基礎を築いていきます。この強固な基礎の上であれば他者のコード(Kaggleの公開コードが非常に参考になります)を参照して新しい知識をどんどん積み上げていけるものと思います。
データ分析の大半はデータの前処理であるとよく言われます。「データ前処理」(Data Preprocessing)とは、具体的には欠損値や重複値の処理、意味のあるデータへの変換、外れ値の取り扱い、機械学習のアルゴリズムに乗せるために求められるスケーリングやダミー変数化(ワンホットエンコーディング)などが挙げられます。この分野に関しては特に検討を重ね、段階的に適切に理解が進むように設計しています。データ前処理とモデルの評価までの一連の流れを学んだ後には、アルゴリズムをさらに詳細に学んだり、ドキュメントを参考に教師なし学習を学んだり、さらにはディープラーニングに挑戦するなどの次の課題がはっきりと見えてくると思います。
実践課題としては、前述のKaggleを利用して、データ分析+機械学習の実践を進めていきます。Kaggle notebook(Kaggleサイト上で使えるJupyter notebookと考えてよい)の使用方法、その他サイトに関わる事柄についても解説を行います。コンペへの参加は非常に高い壁ですが、ここから「データの世界」が一気に広がっていくことを実感していただけるはずです。
ぜひ、本コースへチャレンジしてみてください。
力作です。是非ご期待ください。
2674
143
TAKE THIS COURSE