参考
https://note.com/ebikazuki/m/mbf291a25bef3/hashtag/588102
https://note.com/outlifest/all
MathJax記法
こちらを参考に書く
ガウスマルコフの定理
2021年6月
記事
フィッシャーの線形判別
2021年6月
説明してくれている人の記事
AIC
2021年6月
赤池情報量基準
$$ AIC = -2 × (最大対数尤度) + 2 × (パラメータ数) $$
k分割交差検証
2021年6月
最もよく使う基本的なクロスバリデーションです。
学習データをk個に分割し、k-1個分の学習データと1個分の検証データに分けてモデルの汎化性能を検証します。
k回学習を繰り返し、分割したデータはそれぞれ1回ずつ検証データとして使います。
BIC
2021年6月
ベイズ情報量基準
$$ BIC = -2 \times (最大対数尤度) + (パラメータ数) \times \log(データ数n) $$
MAモデル
片側検定
2019年6月
問題と解説
Zスコア
Z検定については「統計学基礎」の4.3章標本問題P142参照
この問題で問うている母比率に関する検定はP148参照
片側検定と両側検定の定義を後で分かりやすくイメージできるように調べる
適合度カイ二乗検定
2019年6月
問題と解説
ワークブックP262
独立性の検定基準が適用できる場合は以下の公式が使える。
$$ \chi^2 = \sum_i\sum_j\frac{(x_{ij} - x_ix_j/n)^2}{E[x_ij]}$$
そもそもカイ二乗検定とは
主成分分析
2019年6月
問題と解説
Lasso回帰、Fused Lasso回帰
ChatGPTによる説明
Lasso回帰とFused Lasso回帰は、両方とも回帰分析の手法であり、特に変数選択や係数の推定において用いられますが、それぞれ異なる概念と特性を持っています。
Lasso回帰(Least Absolute Shrinkage and Selection Operator Regression)
Lasso回帰
Lasso回帰は、通常の最小二乗法(Ordinary Least Squares, OLS)を拡張したものです。
主な特徴は、係数をゼロに近づけるL1正則化項を持つことです。Lasso回帰は、係数を縮小し、同時に特定の特徴量を選択してモデルを疎にする効果があります。
これにより、モデルが過剰適合(Overfitting)を防ぎ、より汎化性能の高いモデルを構築することができます。一方で、Lasso回帰は特に特徴量が相関している場合に1つの特徴量を選択し、他の相関する特徴量を無視する傾向がある点に注意が必要です。
数式的には、Lasso回帰のコスト関数は以下のように表されます。
$$ Cost = \sum_{i=1}^n(y_i - \hat y_i) + \lambda\sum_{j=1}^p|\beta_i| $$
ここで、 \(y_i\)は観測値、 \(\hat y_i\)はモデルの予測値、\(\beta_i\)は係数、\(p\)は特徴数、\(\lambda\)は正則化パラメータである。
Fused Lasso回帰
Fused Lasso回帰は、Lasso回帰の概念をさらに拡張し、特に時系列データや空間データなどで隣接する特徴量間の関係性を考慮する場合に使用されます。
Fused Lassoは、係数の絶対値の総和と、係数の差分の総和を同時に制約することで、連続する特徴量間での滑らかなパターンを抽出することができます。
数式的には、Fused Lasso回帰のコスト関数は以下のように表されます。
$$ Cost = \sum_{i=1}^n(y_i - \hat y_i) + \lambda_{1}\sum_{j=1}^p|\beta_i| + \lambda_{2}\sum_{j=1}^{p-1}|\beta_{j+1} - \beta_{j}| $$
ここで、 \(\lambda_1\)はL1正則化パラメータ、\(\lambda_2\)は差分の正則化パラメータである。
第2項はLasso回帰の正則化項、第3項は差分の正則化項を表しています。
Fused Lasso回帰は、特に時系列データのトレンドの推定や空間データでの滑らかな変動の推定など、連続する特徴量間の関係性を考慮する場合に有用です。
ロジスティック回帰
二値応答に対する統計モデルを考える。
応答を表す確立変数\(Y\)が\(\{0,1\}\)の2値変数の時、その期待値を\(\pi = E[Y]\)、\(0 < \pi < 1\) を仮定。
\(Y\)は生成確立\(\pi\)のベルヌーイ分布に従うと仮定。
\(\pi\)を\(p\)個の説明変数\(x_1,\ldots,x_p\)で回帰する統計モデルがロジスティック回帰モデルである。
ロジスティック関数
$$ \log \frac{\pi}{1-\pi} = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p $$
ロジット関数
\(\pi\)について逆変換する
$$ \pi_i = \frac{\exp(\beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip})}{1 + \exp(\beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip})} $$
形が紛らわしいので注意
条件付き確率とベイズの定理
Aが起こったという仮定のもとBが起こった時の条件付き確率\(P(B|A)\)は以下の式で表す。
$$ P(B|A) = \frac{P(A \cap B)}{P(A)} $$
ベン図を書くと分かりやすいが\(P(A \cap B)\)には以下の関係がある。
$$ P(A \cap B) = P(B|A) \times P(A) = P(A|B) \times P(B) $$
これにより、以下が言える。
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$
全事象が背反の和だった場合、以下の形で拡張される。
$$ P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^kP(B|A_i)P(A_j)} $$
期待値、分散、共分散
$$ E(X + Y) = E(X) + E(Y) $$ $$ V(X + Y) = V(X) + V(Y) + 2Cov(X,Y) $$ $$ Cov(X,Y) = E(XY) - E(X)E(Y) $$
偏差値の定義
Wikipedia
データの値(点数等)\(x_i\)に対する偏差値\(T_i\)は以下の式で定義される
$$ T_i = \frac{10(x_i - \mu_x)}{\sigma_x} + 50 $$ $$ \mu_x = \frac{1}{N}\sum_{i=1}^Nx_i $$ $$ \sigma_x = \sqrt{\frac{1}{N}\sum_{i=1}^N(x_i -\mu_x)^2} = \sqrt{\frac{1}{N}\sum_{i=1}^Nx_i^2 -\mu_x^2} $$
ARとMA過程
ARモデル
自己回帰モデルと呼ばれる
現在の値を過去のデータを用いて回帰するモデル
失業率、株価分析等で用いられる
1次ARモデル
時刻\(t\)に置けるデータ\(y_t\)が定数項\(\phi_0\)、維持店前のデータ\(y_{t-1}\)、ホワイトノイズ\(\varepsilon_t\)によって表現されている
$$ y_t = \phi_0 + \phi_1y_{t-1} + \varepsilon_t $$
時刻\(t\)に対して1時点前までのデータ\(y_{t-1}\)を用いて回帰するモデル。AR(1)とも書かれる
1次ARモデルの定常性について、定常時の分散を\(\sigma_u^2\)とする
ホワイトノイズの分散を\(\sigma\)とする
\begin{eqnarray}
V(y_t) &=& V(\phi_0 + \phi_1y_{t-1} + \varepsilon_t) \\
&=& V(\phi_1y_{t-1}) + V(\varepsilon_t) \\
&=& \phi_1^2V(y_{t-1}) + V(\varepsilon_t) \\
\sigma_u^2 &=& \phi_1^2 \sigma_u^2 + \sigma^2 \\
\sigma_u^2 &=& \frac{\sigma^2}{1 - \phi_1^2}
\end{eqnarray}
MAモデル
このブログに書くには重すぎるのでこちらを参照