本コースでは、大規模データを高速分散処理するためのフレームワーク"Apache Spark"を人気のプログラミング言語Pythonで実践します。
最近はビッグデータと呼ばれる大規模データを扱うケースがとても多くなってきており、そのようなデータを高速に処理するためには分散処理が必要になります。
分散処理??Spark??と思う人も多いかと思いますが、このコースでは分散処理とは何か、Sparkとは何かといった導入から、実際にPython(PySpark)で実装するまでを全て行いますので、未経験の方でも学ぶことができます。
皆さんのよく知る大企業でもSparkの技術はたくさん使われているので、この機会にSparkをPythonで扱う"PySpark"の扱い方を学び、これからのキャリアに活かしていただければと思います。
本コースの実践パートでは、Spark3.2のバージョンでプログラミングを行います。
実践内容はSpark DataFrame, Spark SQL(少し), Spark MLlibです。
実行環境にはDockerを用います。Docker Hubを用いると自身のPCの環境を変えることなく、簡単に環境構築ができるのでオススメです。
※ Docker環境をうまく作成できなかった方はGoogle Colaboratoryを使って実施してみてください。"!pip install pyspark"でインストールし、使うことができます。
※ コースリリース時からPySparkのバージョンが変わっているために一部動かないコードがありますので、そちらご了承ください。
本コースの内容
大規模データの処理手法
Hadoopとは
Sparkとは
機械学習の基本
Dockerによる環境構築
Pandasの復習
Spark DataFrameによるデータ処理
Spark SQL
Spark MLlibによる機械学習
本コースは購入から30日はキャンセルが可能なので、購入したけれど思っていた内容と違うという方はキャンセルしてください。
それでは一緒にPython, Sparkを学んでいきましょう!