データサイエンス実戦講座[第2回]仮説検定の徹底理解とp値によるリスク対策(前編)

統計学の中で最もよく使われる仮説検定の原理を理解して、現実の問題解決のための3つのスキル(①アクションプランとリスク対策の立案、➁パラメトリック検定とノンパラメトリック検定の併用、③統計解析ソフトの活用)を手に入れよう。

Ratings 4.62 / 5.00
データサイエンス実戦講座[第2回]仮説検定の徹底理解とp値によるリスク対策(前編)

What You Will Learn!

  • 自然現象や社会現象のメカニズムを分析するデータサイエンスの様々な手法について、複数のコースに分けて1つずつ習得していきます。古典的な頻度論の統計学から最新のディープラーニングまで、原理の理解と実務への応用を目指します。
  • 第2回目のコースは仮説検定です。統計学のなかで最もよく使われる手法ですが、誤解や誤用がとても多く、アメリカ統計協会は『p値と統計的有意性に関する声明』を発表して警鐘を鳴らしています。本コースでは仮説検定のロジックを解きほぐして分かりやすく説明します。
  • 仮説検定には、母集団に正規分布などを仮定するパラメトリック検定と、何も仮定しないノンパラメトリック検定があります。統計学の基礎レベルでは前者しか扱わないのが普通ですが、現実には正規分布に従わない現象や、母集団の分布が分からない場合も多々あります。本コースでは問題に応じて両方の手法が使えるように学習します。
  • JASPというフリーの統計解析ソフトを演習問題で使用します。アムステルダム大学が開発したソフトで、メニューは日本語化されています。仮説検定ではパラメトリックとノンパラメトリックの手法が利用できます。豊富な機能を持ち、ベイズ統計の手法も使えますので、日々の勉学や実務にも役立つスキルを身に着けることができるでしょう。
  • 仮説検定だけに特化した内容です。パラメトリック検定とノンパラメトリック検定の両方を合わせると手法がとても多くなるため、前編(今回)と後編(次回)に分けました。前編では仮説検定のロジック解説、リスク対策の考え方、1サンプルの検定までを扱い、後編では2サンプルの検定、分散分析、分割表の検定を扱います。

Description

データサイエンス実戦講座の第2回のテーマは仮説検定です。統計学の中でも実務で最もよく使われる手法のひとつで、例えば製品の改良開発が成功か失敗かの二者択一の仮説を立てて、統計学の視点から判定を下します。検定の原理を理解して現実世界の問題解決に活かすためのポイントは次の3つです。

①アクションプランとリスク対策の立案・・・検定とは仮説の発生頻度の推定であり、仮説の「真偽」と判定の「正誤」は分かりません。問題解決には「真と偽」×「正と誤」=4つのケースに対するアクションプランとリスク対策が必要で、これらを立案する方法が習得できます。

➁パラメトリック検定とノンパラメトリック検定の併用・・・現実に起こる社会現象や自然現象のデータは正規分布しているとは限りません。このため、母集団に正規分布などを仮定するパラメトリック検定だけでなく、歪んだ分布や外れ値のある分布に適用できるノンパラメトリック検定も必要で、両者を併用する2段構えの分析力が身に付きます。

③統計解析ソフトの活用・・・多くの手法を知っていても使えなければ意味がありません。アムステルダム大学が開発したフリーの統計解析ソフトJASPを駆使して、実戦的な演習問題を通して応用力が養えます。

今回のコース(前編)では仮説検定の基礎理論と1サンプルの検定、次回の後編では2サンプル以上の手法を扱います。

データサイエンスといえば機械学習やディープラーニングのさまざまな手法や、注目の生成AIを実現する大規模言語モデルが思い浮かぶでしょう。しかし、その礎となっているのはデータ分析の技術です。それは百年以上も前から自然・社会・人文科学の進歩を支えてきた古典的(頻度論的)統計学であり、かつては異端扱いされながらもビッグデータ時代の訪れとともに蘇ったベイズ統計学です。最新のデータサイエンスを学ぶためには、まず統計学の基礎をしっかり押さえておきましょう。

Who Should Attend!

  • 学業や業務でデータ分析を必要としている方、将来データアナリストを目指す方、データサイエンスに興味のある方であればどなたでも。 データ分析の初心者から学び直しの中級者。

TAKE THIS COURSE

Tags

Subscribers

160

Lectures

14

TAKE THIS COURSE