機械学習を勉強し始めたせいで、逃げ続けてきた微積分や確率論と戦わないといけなくなってしまいました。

以下は確率論の基本的な概念の覚え書きです。

σ-集合代数

集合 \(\Omega\) の部分集合の集合 \(\Sigma \subset 2^{\Omega}\) が以下の条件を満たす時、 \(F\) を \(\Omega\) 上のσ-集合代数といいます。

  • \(\Sigma\) は空ではない
  • \(A \in \Sigma \Rightarrow \Omega - A \in \Sigma\)
  • \(A_1, A_2, … \in \Sigma \Rightarrow \bigcup_{i}A_i \in \Sigma\)

すなわち、補集合を取る演算と合併に関して閉じているものです。

なお、σ-集合代数は定義より以下の事実が導かれます。

  • \(\phi \in \Sigma\)
  • \(\Omega \in \Sigma\)

測度

\(\Omega\) 上のσ-集合代数 \(\Sigma\) 上で定義される写像 \(P : \Sigma \to [0, \infty]\) が以下を満たす時、 \(P\) を測度といいます。

  • \(P(\phi) = 0\)
  • \(A_i~(i=1, 2, …)\)が互いに素のとき、\(P(\bigcup_{i}A_i) = \sum_{i}P(A_i)\)

確率空間

\(\Omega\) 上のσ-集合代数 \(\Sigma\) の測度 \(P\) が以下を満たす時 \(P\) を確率測度といい、 \((\Omega, \Sigma, P)\) を確率空間といいます。

  • \(P(\Omega) = 1\)

確率変数

確率空間 \((\Omega, \Sigma, P)\) に対して、 \(\Omega\) 上の関数 \(X : \Omega \to \mathbb{R}\) を確率変数といいます。

また、確率変数 \(X\) に対して、しばしば以下のような略記がなされます。

  • \(x \in \mathbb{R}\) についての命題 \(Q(x)\) について、 \(P(Q(X)) = P(\{\omega \in \Omega \vert Q(X(\omega)) \})\)
  • \(f : \mathbb{R}^n \to \mathbb{R}\) と確率変数 \(X_i~(i = 1, 2, …, n)\) について、 \(f(X_1, X_2, …, X_n)\) は次で表される確率変数: \(f(X_1, X_2, …, X_n)(\omega) = f(X_1(\omega), X_2(\omega), …, X_n(\omega))\)

条件付き確率

\(A, B \in \Sigma, P(B) > 0\) のとき、条件付き確率 \(P(A \vert B)\) を以下で定義します。

  • \(P(A \vert B) = \frac{P(A \cap B)}{P(B)}\)

直感的には、「Bが起きている時にAでもある確率」を表します。

独立性

\(A_1, A_2, …, A_n \in \Sigma\) について、これらから相異なる任意個 \(A_{i_1}, A_{i_2}, …, A_{i_m}\) を選んだ時に、常に

  • \(P(\bigcap_{k}A_{i_k}) = \prod_{k}A_{i_k}\)

が成り立つ時、 \(A_1, A_2, …, A_n\) は独立であるといいます。

確率密度関数

確率空間 \((\Omega, \Sigma, P)\) に対して、ある関数 \(f : \Omega \to \mathbb{R}\) が存在して以下が成り立つ場合、この関数 \(f\) を確率密度関数といいます。

  • \(P(A) = \int_{A}f(x)\mathrm{d}x\)

注目すべきは、これが測度 \(P\) を用いたLebesgue積分であることです。こうすることによって、離散確率と連続確率の間の溝を埋め、一般化することができるようになっています。

確率質量関数

確率空間 \((\Omega, \Sigma, P)\) が離散的である、すなわち、 \(P\) が数え上げ速度である場合に、確率密度関数 \(f\) を確率質量関数と呼ぶことがあるようです。

確率分布

確率空間 \((\Omega, \Sigma, P)\) 上の確率変数 \(X\) に対して、

  • \(f(x) = P(X^{-1}(x))\)

を確率分布というようです。このへんに関しては厳密な定義が見当たらないのでもはやわからん。

平均、分散、標準偏差

確率空間 \((\Omega, \Sigma, P)\) 上の確率変数 \(X\) に対して、

  • \(E[X] = \int_{\Omega}X(\omega)\mathrm{d}\omega\)

を \(X\) の期待値といいます。

また、 \(\mu = E[X]\) としたときに、

  • \(V[X] = E[(X - \mu)^2]\)

を \(X\) の分散といい、

  • \(\sigma[X] = \sqrt{V[X]}\)

を \(X\) の標準偏差といいます。