AIと統計学

1.AIと統計学の概要

AIの開発で用いる多くの手法は、数学や統計学的な知見が下地にあるか、もしくは、数学や統計学的知見をそのまま活用しているものが多いです。

例えば、「一般化線形モデル」は名称こそ異なりますが、回帰分析そのもののことであり、尤度やAIC(赤池情報量規準)といった考え方も求められます。

ニューラルネットワークでは凸最適化の考え方が学習の過程で求められ、混合ガウスモデルでは正規分布の考え方が必要となります。

AIを構成するため、学習するための要素として統計学という観点が重要となります。

2.なぜAIと統計学なのか

AIの開発に統計学が必要な理由として、開発プロセスにおいて求められる知識に起因すると考えられます。

<AIを設計するプロセスで求められる知識>

  • 比較対象技術の選定と評価関数の設計
  • 教師データの解析
  • 未学習データ(推定に用いるデータ)の解析
  • テストデータの作成
  • 最良のモデル選定
  • 学習
  • 未学習データによる評価

3.AIと関連する統計学の知識

3.1.正規分布

機械学習においては、データの前処理という作業が必要になります。この際に正規化という処理を行いますが、分布は標準正規分布に従うことを前提としています。機械学習においては、様々な単位のデータが入力値となりうるため、統一されたデータを入力値として与え精度の高いモデルを作るために、正規化という処理を行います。

3.2.ベイズ推定

機械学習のタスクでは、データセットが与えられたときに、どの推定が尤もらしいかということが問題になります。例えば分類タスクでは、そのサンプルがどこに分類されるかということが推定にあたり、どの推定が尤もらしいかを判断するときに用いるのがベイズ推定となります。

3.3.重回帰分析

重回帰分析は、機械学習の中で最も基本的なモデルであり、広く活用されている手法です。またニューラルネットワークにおけるニューロンの発火にあたっては、線形結合された値が一定の閾値を超えることが必要となります。この線形結合された値は、重回帰分析の知識を活用しています。

3.4.凸最適化

機械学習は何らかの関数を定義して、それを最適化することがほとんどです。ディープラーニングを始めとする多くの機械学習の手法は、最適化問題を解けば良いことが知られており、最適化問題を理解することが機械学習の様々な理論の理解に繋がります。統計学の中には最適化問題が多く含まれています。

▽続きはこちら
書籍『AIエンジニアのための統計学入門』