PythonでWebスクレイピング・クローリングを極めよう！（Scrapy・Selenium 編）

Python3のスクレイピング専用フレームワークScrapyを用いて、より高度で効率的なスクレイピング・クローリング方法を短期間で習得します。旧式のBeautifulSoupから卒業し、より高度なスクレイピング・クローリングを実現しよう！！

Ratings 4.63 / 5.00

PythonでWebスクレイピング・クローリングを極めよう！（Scrapy・Selenium 編）

What You Will Learn!

Python3のスクレイピング専用フレームワークScrapyの高度な機能を用いて、効率的にスクレイピング・クローリングができるようになります。
Scrapyを用いて、複数のWebページを高速にクローリングし、目的の情報や画像を効率的に取得する方法を理解することができます。
Scrapyを用いて、取得したデータを簡単にファイル出力したり、データベースへ保存する方法を理解することができます。
Scrapy-Seleniumを利用した、JavaScriptを用いた動的なサイトへ対処する方法を理解することができます。
Scrapyで作成したプログラムをクラウド上の環境へデプロイメントする方法を理解することができます。
開発や運用をスムーズに行えるよう、Scrapyの様々なデバッグ方法を学ぶことができます。
スクレイピングに欠かせないXPath、CSSセレクタの利用方法を学ぶことができます。
Beautifulsoup + Requestsを卒業し、より高度なスクレイピング・クローリング専用フレームワークScrapyを使いこなせるようになります。
実践的な演習問題を通じてScrapyの理解を深めることができます。

Description

本コースは、Pythonのスクレイピング専用フレームワークScrapyを用いたWebスクレイピング・クローリングにより、データ収集のスキルを短期間で劇的に向上させることを目的としたコースになります。

今までのWebスクレイピングの方法では、BeautifulSoupやRequestsなど、複数のライブラリを継ぎはぎに組み合わせながら、多くのコーディングを行う必要がありました。この結果、スクレイピングの学習や作業に非常に多くの時間を費やし、せっかく取得したデータの活用に割ける時間が奪われてしまっていました。

しかしスクレイピング専用のフレームワークであるScrapyの登場により、これは劇的に変わりました。フレームワークとは、全体の処理の流れがある程度、事前に組み込まれているソフトウェアの基盤になります。従って、面倒な多くのことはフレームワーク自体が行ってくれて、これによりデータの取得が容易になり、効率的に行うことができるようになりました。

別のページへのリンクのたどり方や、どのデータを取得するかなど、最低限必要なコーディングだけを行えばよくなりました。さらに１つのフレームワークで実現するので、一貫性が保たれ、非常に高速にデータを取得することができます。

これにより効率的にWebサイトからデータを取得することができ、データ取得の本来の目的であるデータの活用に、より多くの時間を割くことができるようになります。

このコースでは、このPythonのスクレイピング専用フレームワークScrapyの使い方を、徹底的に解説していきます。

【このコースで扱うトピック】

このコースでは、実際の様々なWebサイトを例にスクレイピングを行い、データを取得していきます。しかし、人によってスクレイピングしたいサイトは異なりますし、サイトも日々変化していきます。

このコースの基本的なコンセプトとして、これらの変化にも柔軟に対応し、他のWebサイトにも応用できるよう、スクレイピングにおいてポイントとなる箇所と対応方法をできるだけ幅広く解説しながら進めていきます。

このコースで扱うトピックは、これらのものになります。

1. スクレイピングの一連のプロセスをカバーします。

　Webサイトから必要なデータを取得・抽出する方法、そして、取得したデータをきれいに整形したり、ファイルやデータベースに保存する方法を学びます。

2. スクレイピングに関する幅広いスキルが身に付くよう、レクチャーを提供します。