Lecturas de Métodos Estadísticos Multivariantes
Autor
Mauricio Zelaya Aguilar
Last Updated
hace 10 años
License
Creative Commons CC BY 4.0
Resumen
Lecturas tomadas de la clase de M.Sc. Fidel Ordoñez, Carrera de Matemática UNAH, 2014
\documentclass[a4paper,12pt]{article}
\usepackage[papersize={216mm,330mm},tmargin=25mm,bmargin=25mm,lmargin=25mm,rmargin=25mm]{geometry}
\usepackage[english]{babel}
\usepackage[utf8]{inputenc}
\usepackage{amsmath,amssymb}% for \eqref
\usepackage{graphicx}
\usepackage[colorinlistoftodos]{todonotes}
\pagestyle{myheadings}
\markright{Editado por Mauricio Zelaya Aguilar en www.write \LaTeX{}.com\hfill}
\title{Lecturas de Métodos Estadísticos Multivariantes}
\author{M.Sc. Fidel Ordoñez}
\date{Mayo-Agosto 2014}
\begin{document}
\maketitle
\subsection*{Rotaciones}
Sea $x\in \mathbb{R}^p$ , $\Gamma_{p\times p}$ ortogonal. $\Gamma x$ lo que hace es tener las nuevas coordenadas en un sistema rotado. $A_{p\times p}$ simétrica, entonces
\begin{align*}
A&=\Gamma \Lambda \Gamma^T\\
A^{\alpha}&=\Gamma \Lambda^{\alpha} \Gamma^T\\
A^{-1}&=\Gamma \Lambda^{-1} \Gamma^T\\
\operatorname{tra}(A)&=\sum_{i=1}^p \lambda_i\\
|A|&=\prod_{i=1}^p \lambda_i\\
\Gamma &=\operatorname{diag}(\lambda_1,\ldots,\lambda_p)
\end{align*}
Sea $X=(X_1,\ldots,X_p)^T$ con $X\sim (\mu,\Sigma)$ entonces
\begin{align*}
\operatorname{E}(X)&=(\operatorname{E}(X_1),\ldots,\operatorname{E}(X_p))^T\\
&=\mu\\
\operatorname{Var}(X)&=\operatorname{Cov}(X,X)\\
&=\Sigma\\
\Sigma&=
\begin{pmatrix}
\sigma_{X_1 X_1} & \ldots & \sigma_{X_1 X_p}\\
\vdots & \ddots & \vdots\\
\sigma_{X_p X_1} & \ldots & \sigma_{X_p X_p}
\end{pmatrix}_{p \times p}\\
\rho&=
\begin{pmatrix}
\rho_{X_1 X_1} & \ldots & \rho_{X_1 X_p}\\
\vdots & \ddots & \vdots\\
\rho_{X_p X_1} & \ldots & \rho_{X_p X_p}
\end{pmatrix}_{p \times p}\\
\rho_{X_i X_j}&=\frac{\operatorname{Cov}(X_i X_j)}{\sqrt{\sigma_{X_i X_i} \sigma_{X_j X_j}}}\\
\sigma_{ij}&=\sigma_{X_i X_j}\\
\sigma^2_i&=\sigma_{X_i X_i}\\
\operatorname{Cov}(X_i X_i)&=\sigma^2_{X_i}
\end{align*}
Suponga que se tienen $n$ realizaciones de $X_{p+1}$ y se tiene la matriz de datos
$$\mathcal{X}_{n\times p}=
\begin{pmatrix}
x_{11} & \ldots & x_{1j} & \ldots & x_{1p}\\
\vdots & & \vdots & & \vdots\\
x_{i1} & \ldots & x_{ij} & \ldots & x_{ip}\\
\vdots & & \vdots & & \vdots\\
x_{n1} & \ldots & x_{nj} & \ldots & x_{np}
\end{pmatrix}$$
$x_i=(x_{i1},\ldots,x_{ij},\ldots,x_{ip})^T \in \mathbb{R}^n$ $i=1,2,\ldots,n>p$ es la $i$-esima observacion\\
$x_{(j)}=(x_{1j},\ldots,x_{ij},\ldots,x_{nj})^T \in \mathbb{R}^n$ $j=1,2,\ldots,p$ es la observacion de $X_j$
\begin{align*}
\bar{x}&=\frac{1}{n}\sum_{i=1}^n x_i\\
&=
\begin{pmatrix}
\bar{x}_1\\
\vdots\\
\bar{x}_j\\
\vdots\\
\bar{x}_p
\end{pmatrix}\\
&=\frac{1}{n}\mathcal{X}^T \textbf{1}_n \qquad \mathcal{X}_{n\times p}\\
\bar{x}_j&=\frac{1}{n}\sum_{i=1}^n x_{ij}
\end{align*}
\begin{align*}
\textbf{1}_n&=
\begin{pmatrix}
1\\
\vdots\\
1
\end{pmatrix}_{n\times 1}\\
\mathcal{S}&=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^T \qquad \textrm{estimador sesgado}\\
&=\frac{1}{n}\mathcal{X}^t\mathcal{X}-\bar{x}\bar{x}^T\\
&=\frac{1}{n}\left(\mathcal{X}^T\mathcal{X}-\frac{1}{n}\mathcal{X}^T \textbf{1}_n \textbf{1}^T_n \mathcal{X}\right)\\
&=\frac{1}{n}\mathcal{X}^T \left(I_n-\frac{1}{n}\textbf{1}_n \textbf{1}^T_n\right) \mathcal{X}\\
&=\frac{1}{n}\mathcal{X}^T \mathcal{H} \mathcal{X} \qquad \mathcal{H} \qquad \textrm{simétrica e idempotente}\\
\mathcal{S}_u&=\frac{n}{n-1}\mathcal{S} \qquad \textrm{estimador insesgado}\\
\mathcal{S}&=\frac{1}{n}\mathcal{X}^T\mathcal{X}-\bar{x}\bar{x}^T\\
&=\frac{1}{n}\mathcal{X}^T\mathcal{H}\mathcal{X}\\
\mathcal{H}&=I_n-\frac{1}{n}\textbf{1}_n\textbf{1}^T_n\\
R&=D^{-1/2}\mathcal{S}D^{-1/2} \qquad D=diag(S_{X_iX_j})
\end{align*}
\subsection*{Transformaciones Lineales $X=(X_1,\ldots,X_p)$}
\begin{enumerate}
\item $\mathcal{X}_{n\times p} \qquad \mathcal{A}_{g\times p}$
\begin{align*}
y_{n\times q}&=\mathcal{X}\mathcal{A}^T\\
&=(y_1,\ldots,y_n)^T
\end{align*}
fila $y_i=(y_{i1},\ldots,y_{iq})\in \mathbb{R}^q$ $i$ esima observación de $y_{q\times 1}=\mathcal{A}X \qquad
\bar{y}=\mathcal{A}\bar{x} \qquad
\mathcal{S}_y=\mathcal{A}\mathcal{S}_x\mathcal{S}^T$
\item Mahalanobis\\
Sea $z_i=\mathcal{S}^{-1/2}(x_i-\bar{x} \qquad i=1,\ldots,n$, luego $Z=(z_1,\ldots,z_n) \qquad \bar{Z}=0 \qquad \mathcal{S}_z=I_p$
\begin{align*}
S_{X_jX_k}&=\frac{1}{n}\sum_{i=1}^n(x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k) \qquad
r_{X_jX_k}=\frac{S_{X_jX_k}}{\sqrt{S_{X_jX_j}S_{X_kX_k}}}\\
R&=
\begin{pmatrix}
r_{X_1X_1} & \ldots & r_{X_pX_p}\\
\vdots & \ddots & \vdots\\
r_{X_pX_1} & \ldots & r_{X_pX_p}
\end{pmatrix}_{p\times p} \qquad
\mathcal{S}=
\begin{pmatrix}
S_{X_1X_1} & \ldots & S_{X_1X_p}\\
\vdots & \ddots & \vdots\\
S_{X_pX_1} & \ldots & S_{X_pX_p}
\end{pmatrix}\\
D&=
\begin{pmatrix}
S_{X_1X_1} & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & S_{X_pX_p}
\end{pmatrix} \qquad
D^{-1}=
\begin{pmatrix}
\frac{1}{S_{X_1X_1}} & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & \frac{1}{S_{X_pX_p}}
\end{pmatrix}\\
D^{-1/2}&=
\begin{pmatrix}
\frac{1}{\sqrt{S_{X_1X_1}}} & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & \frac{1}{\sqrt{S_{X_pX_p}}}
\end{pmatrix}\\
\sum_{i=1}^n(x_i-\bar{x})&=0 \qquad \mathcal{S}\geq 0 \qquad \textrm{semidefinida positiva}
\end{align*}
\begin{align*}
\mathcal{S}&=\frac{1}{n}\mathcal{X}^T \mathcal{H}\mathcal{X} \qquad \mathcal{S}\geq 0 \qquad \textrm{semidefinida positiva}\\
&=\frac{1}{n}\mathcal{X}^T \mathcal{H}\mathcal{H} \mathcal{X}\\
&=\frac{1}{n}\mathcal{X}^T \mathcal{H}^T \mathcal{H} \mathcal{X}\qquad y=\mathcal{H}\mathcal{X}\\
&=\frac{1}{n}y^T y \geq 0\\
\bar{y}&=\frac{1}{n}
\end{align*}
\end{enumerate}
\subsection*{Distribución Normal Multivariada}
Sea $X\sim N_p(\mu,\Sigma)$ si $\displaystyle f(x)=|2\pi\Sigma|^{-1/2}e^{\left[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]}$\\
\begin{displaymath}
\operatorname{E}(X)=\mu \qquad \operatorname{Var}(X)=\Sigma
\end{displaymath}
Sea $X\sim N_p(\mu,\Sigma)$ si $y=\Sigma^{-1/2}(x-\mu)$, luego $Y\sim N_p(0,I)$ donde
\begin{align*}
I&=
\begin{pmatrix}
1 & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & 1
\end{pmatrix}\\
\operatorname{E}(Y)&=\operatorname{E}\left(\Sigma^{-1}(X-\mu)\right)\\
&=\Sigma^{-1/2}[\operatorname{E}-\mu]\\
&=\Sigma^{-1/2}(\mu-\mu)\\
&=0\\
\operatorname{Var}(Y)&=\left(\Sigma^{-1/2}\right)^T\operatorname{Var}(X)\Sigma^{-1/2}\\
&=\Sigma^{-1/2} \Sigma \Sigma^{-1/2}\\
&=I\\
X&=\Sigma^{-1/2}Y+\mu \qquad I=\Sigma^{-1/2}\\
X-\mu&=\Sigma^{-1/2} Y\\
(x-\mu)^T\Sigma^{-1}(x-\mu)&=(\Sigma^{-1/2}y)^T \Sigma^{-1} (\Sigma^{-1/2}y)\\
&=y^T y
\end{align*}
$\displaystyle f(y)=(2\pi)^{-p/2} e^{-\frac{1}{2}y^T y}$, por lo tanto $Y\sim N_p(0,I) \qquad \diamondsuit$\\
Si $A_{p\times p} \qquad C\subset \mathbb{R}^p \qquad Y=AX+C$\\
$X\sim N_p(\mu,\Sigma)$ luego $Y\sim N_p(A\mu+C,A^T\Sigma A)$
\subsubsection*{Teorema 1}
Si $X\sim N_p(\mu,\Sigma)\Longrightarrow u=(X-\mu)^T\Sigma^{-1}(X-\mu)\sim \mathcal{X}^2_p$
\subsection*{Distribución de Wishart}
Sea $\mathcal{X}_{n\times p}$ matriz de datos de $X\sim N_p(0,\Sigma)$, luego $\mathcal{M}=\mathcal{X}^T \mathcal{X} \sim W_p(\Sigma,n)$
\subsubsection*{Nota 2}
Sea $\mathcal{X}_{n\times p}$ de $X\sim N_p(0,\Sigma)$, $\mathcal{S}$ matriz de covarianza muestral, entonces:
\begin{itemize}
\item [i.] $nS=\mathcal{X}^T \mathcal{H} \mathcal{X} \sim W_p(\Sigma,n-1)$
\item [ii.] $\bar{x}$, $\mathcal{S}$ son independientes
\end{itemize}
\subsection*{Distribución $T^2$ de Hotelling}
Sea $Y\sim N_p(0,I)$ independientes de $\mathcal{M}\sim W_p(I,n)$, luego
$ny^T\mathcal{M}^{-1}y\sim T^2(p,n)$
\subsubsection*{Teorema 3}
Sea $X\sim N_p(\mu,\Sigma)$ independientes de $\mathcal{M}\sim W_p(\Sigma,n)$ entonces
$$n(X-\mu)^T\mathcal{M}^{-1}(X-\mu)\sim T^2(p,n)$$
\subsubsection*{Corolario 4}
Sea $X\sim N_p(\mu,\Sigma)$ entonces
$(n-1)(\bar{x}-\mu)^T \mathcal{S}^{-1}(\bar{x}-\mu)=n(\bar{x}-\mu)^T \mathcal{S}^{-1}_u(\bar{x}-\mu)\sim T^2(p,n-1)$
donde $S_u=\dfrac{n}{n-1}\mathcal{S}$
\subsubsection*{Corolario 5}
Sea $\displaystyle T^2(p.n)=\dfrac{np}{n-p+1}F_{p,n-p+1}$
\subsection*{Análisis Factorial}
Sea $X=(X_1,X_2,\ldots,X_p)^T \sim (\mu,\Sigma)$ se tienen n-observaciones formando $\chi$.
\\El análisis factorial asume que hay un modelo que explica la covarianza de $X_1,X_2,\ldots,X_p$
mediante $k<p$ factores latentes.\\
Sea $X=QF+\mu$ con $X_{p\times1}$, $Q_{p\times k}$, $\mu_{p\times1}$ y $F_{k\times1}=(F_1,F_2,\ldots,F_k)^T$
$$E(F)=0 \qquad \operatorname{Var}(F)=I_k$$
En la práctica $X=QF+U+\mu$
\subsection*{Modelo Factorial Ortogonal}
Sea $X=QF+U+\mu$ con $Q_{p\times k}$, $F_{k\times1}$, $U_{p\times 1}$ y $\mu_{p\times1}$
\\Q es la matríz de cargas de los factores comunes F (no aleatorio)
\\U matríz (aleatoria) de factores especificos
\\Se asume que con $i\neq j$
\begin{align*}
\operatorname{E}(F)=0 \qquad
\operatorname{Var}(F)=I_k \qquad
\operatorname{E}(U)=0 \qquad
\operatorname{Cov}(U_i,U_j)=0 \qquad
\operatorname{Cov}(F,U)=0
\end{align*}
$\mu_j$ media de $X_j$ con $j=1,\ldots,p$\\
$U_j$ j-esimo factor especifico\\
$F_l$ l-esimo factor común $l=1,\dots,p$\\
$q_{jl}$ carga factorial de $X_j$ en $F_l$\\
Si $\operatorname{Var}(U)=\Psi$ donde $\Psi=diag(\psi_{11},\ldots,\psi_{1p})$
\begin{align*}
X_j&=\sum_{l=1}^k q_{jl}F_l+U_j+\mu_j\\
\sigma_{X_j X_j}&=\operatorname{Var}(X_j)\\
&=\sum_{l=1}^k q_{jl}^2+\Psi_{jj}\\
&=h_j^2+\Psi_{jj}
\end{align*}
donde a $h_j^2$ se le llama comunalidad, y $\Psi_{jj}$ es la varianza especifica.
\subsubsection*{Nota 6}
$\operatorname{Var}(X)=Q^T \operatorname{Var}(F) Q+ \operatorname{Var}(U)$\\
$\Sigma=Q^TQ+\Psi$ donde $\Sigma$ tiene $p$ variables y $Q$ tiene $k$ factores\\
Para interpretar factores $\Sigma_{XF}=Q$ y $\rho_{XF}=D^{-1/2}$ donde $D=\operatorname{diag}(\sigma_{x_1x_1,\ldots,x_px_p})$
\begin{align}
\Sigma_{XF}&=E[(X-\mu)(F-0)^T]\notag\\
&=E[(QF+U)F^T]\notag\\
&=QE(FF^T)+E(UF^T)\notag\\
&=QI_k+0\notag\\
&=Q\notag
\end{align}
\subsection*{Invarianza de Escala $X \sim (\mu,\Sigma)$}
Si $Y=CX$ donde $C=\operatorname{diag}(c_1,\dots,c_p)$ con $\Sigma=Q_X Q_X^T+\Psi_X$, luego
\begin{align}
\operatorname{Var}(Y)&=C \Sigma C^T\notag\\
&=C Q_X Q_X^T + C \Psi_X C^T\notag\\
&=(C Q_X)(C Q_X)^T + C \Psi_X C^T\notag
\end{align}
En particular $Y=D^{-1/2}(X-\mu)$, en este caso queremos encontrar $Q_X, \Psi_Y$ tal que
\begin{align}
\rho&=Q_Y Q_Y^T+\Psi_Y\notag\\
\rho_{XY}&=\rho_{YF}\notag\\
&=\rho_Y\notag
\end{align}
por invarianza $Q_X=D^{-1/2}Q_Y$ y $\Psi_X=D^{-1/2} \Psi D^{-1/2}$.
\subsection*{La No Unicidad de las Cargas Factoriales}
Si $X=QF+U+\mu$ es cierto, luego si G es ortogonal y $X=(QG)(G^TF)+U+\mu$ es cierto
$$X=Q^* F^*+U+\mu$$
\subsubsection*{Nota 7}
Sea $\Sigma=QQ^T+\Psi$ donde $Q$ tiene $pk$ parámetros y $\Psi$ tiene $p$ parámetros, además $\Sigma$ tiene $\displaystyle \frac{p(p+1)}{2}$ ecuaciones en el sistema.
$$\Sigma_{p\times p}=
\begin{pmatrix}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp}
\end{pmatrix}$$
se utilizan las siguientes restricciones:
\begin{enumerate}
\item $Q^T D^{-1} Q$ es diagonal
\item $Q^T \Psi^{-1} Q$ es diagonal
\end{enumerate}
d:grados de libertad del sistema, con cualquiera de las restricciones:
\begin{align}
d&=\frac{p(p+1)}{2}-\left[ (pk+p)-\frac{k(k-1)}{2} \right]\notag\\
&=\frac{1}{2}(p-k)^2-\frac{1}{2}(p+k)\notag
\end{align}
Si $d<0$ indeterminado (más ecuaciones que incognitas)\\
Si $d=0$ solución única (excepto por rotación)\\
Si $d>0$ podemos encontrar soluciones (común en la práctica)
\subsubsection*{Ejemplo 8}
Si $p=6$\\
$k=1 \Longrightarrow d=9>0$\\
$k=2 \Longrightarrow d=4>0$\\
$k=3 \Longrightarrow d=0$\\
$k=4 \Longrightarrow d=-3<0$\\
\begin{align}
\Sigma&=
\begin{pmatrix}
\sigma_{11} & \sigma_{12} & \sigma_{13} \\
\sigma_{21} & \sigma_{22} & \sigma_{23} \\
\sigma_{31} & \sigma_{32} & \sigma_{33}
\end{pmatrix}\notag\\
&=
\begin{pmatrix}
q_{11}\\
q_{21}\\
q_{31}
\end{pmatrix}
\begin{pmatrix}
q_{11} & q_{21} & q_{31}
\end{pmatrix}
\begin{pmatrix}
\Psi_{11} & 0 & 0 \\
0 & \Psi_{22} & 0 \\
0 & 0 & \Psi_{33}
\end{pmatrix}\notag\\
&=
\begin{pmatrix}
q^2_{11}+\Psi_{11} & q_{11}q_{21} & q_{11}q_{31} \\
q_{21}q_{11} & q^2_{21}+\Psi_{22} & q_{21}q_{31} \\
q_{31}q_{11} & q_{31}q_{21} & q^2_{31}+\Psi_{33}
\end{pmatrix}\notag
\end{align}
\begin{align*}
q^2_{11}&=\frac{\sigma_{12}\sigma_{13}}{\sigma_{23}} \qquad
q^2_{21}=\frac{\sigma_{12}\sigma_{23}}{\sigma_{13}} \qquad
q^2_{31}=\frac{\sigma_{13}\sigma_{23}}{\sigma_{12}} \qquad\\
\Psi_{11}&=\sigma_{11}-q^2_{11} \qquad
\Psi_{22}=\sigma_{22}-q^2_{21} \qquad
\Psi_{11}=\sigma_{33}-q^2_{31} \qquad
\end{align*}
\subsection*{Estimación del Modelo}
Con los datos $\mathcal{X}$ encontrar $\hat{Q}$ y $\hat{\Psi}$ tal que $S=\hat{Q}\hat{Q}^T+\hat{\Psi}$\\
Más facil cuando usamos $Y=\mathcal{H}\mathcal{X}D^{1/2}$\\
$S_Y=R$ matriz de correlaciones de $\mathcal{X}$\\
Queremos $R=\hat{Q}_Y\hat{Q}^T_Y+\hat{\Psi}_Y$
\subsection*{Método de Componentes Principales}
Se comienza con aproximación de $Q$, sea $\hat{Q}$\\
$S=\mathcal{G}\mathcal{L}\mathcal{G}^T$ S es simétrica, donde $\mathcal{L}=\operatorname{diag}(l_1,\ldots,l_p)$ y $l_1 \geq \ldots \geq l_p$ autovalores de $S$ con autovectores $g_1,\dots,g_p$ que forman $\mathcal{G}$.\\
Considerando solamente los primeros $k$ autovalores más grandes y que sean positivos, se aproxima
$$S=\mathcal{G}_1\mathcal{L}_1\mathcal{G}_1^T$$
$\mathcal{L}_1=\operatorname{diag}(l_1,\ldots,l_k)$ y $\mathcal{G}_1$ tiene los respectivos autovectores, luego
\begin{align}
\hat{Q}&=\mathcal{G}_1\mathcal{L}_1^{1/2}\notag\\
&=(\sqrt{l_1}g_1,\dots,\sqrt{l_k}g_k)\notag\\
\hat{\Psi}&=\operatorname{diag}(S-\hat{Q}\hat{Q}^T)\notag\\
\hat{\Psi}_{jj}&=s_{jj}-\sum_{l=1}^k \hat{q}^2_{jl}\notag
\end{align}
Para evaluar la estimación ver la matriz residual $S=\hat{Q}\hat{Q}^T+\hat{\Psi}$. Observemos que es diagonal
\begin{align}
\hat{Q}\hat{Q}^T&=(\mathcal{G}_1\mathcal{L}_1^{1/2})(\mathcal{G}_1\mathcal{L}_1^{1/2})^T \notag\\
&=\mathcal{G}_1\mathcal{L}_1^{1/2}\mathcal{L}_1^{1/2}\mathcal{G}_1^{T}\notag\\
&=\mathcal{G}_1\mathcal{L}_1\mathcal{G}_1^T\notag
\end{align}
\subsection*{Método del Factor Principal}
Se puede utilizar $S$(observado) o $R$(estimado).
\begin{enumerate}
\item Como estimar $\Psi$ en el método del factor principal:
\begin{itemize}
\item [i.] $h^2_j$=cuadrado de coeficiente de correlación múltiple en la regresión de $X_j$ sobre el resto de $X'$
\item [ii.] Con $\hat{\Psi}_{jj}=1-h^2_j$ se tiene que
$\displaystyle h^2_j=\max_{l \neq j} \{r_{jl}\}$
\end{itemize}
\item De $R=\hat{Q}\hat{Q}^T+\hat{\Psi}$ luego $R-\hat{\Psi}=\hat{Q}\hat{Q}^T$
\item $R-\hat{\Psi}$ es simétrica, $R-\hat{\Psi}=\mathcal{G}\mathcal{L}\mathcal{G}^T$ descomposición espectral.
\item De $\mathcal{L}$ tomar los $k$ autovalores mayores, digamos $l_1\geq\ldots\geq l_k>0$ y formamos $\mathcal{L}_1$ y $\mathcal{G}_1$ con los respectivos autovectores.\\
Luego $\hat{Q}=\mathcal{G}_1 \mathcal{L}_1^{1/2}$ i.e. $\hat{q}_l=\sqrt{l_l}g_l$ con $l=1,\ldots,k$
\item Construir $\hat{\Psi}$(nuevo)
$\displaystyle \hat{\Psi}_{jj}=1-\sum_{i=1}^k q^2_{jl} \longrightarrow \hat{\Psi}$
\item Se itera, comenzando en el paso 3 hasta que $\|\hat{Q}_{n+1}-\hat{Q}_n\|<\epsilon$ o $\hat{\Psi}_{jj}$ son estables
\end{enumerate}
\subsection*{Método de Máxima Verosimilitud}
Sea $\mathcal{X}_{n\times p}$ de $X\sim N_p(\mu,\Sigma)$. Recordar que
\begin{align}
(\mathcal{X};\mu,\Sigma)&=-\frac{n}{2}\ln |2\pi\Sigma|-\frac{1}{2}\sum_{i=1}^n (x_i-\Sigma) \Sigma^{-1}(x_i-\mu)^T\notag\\
&=-\frac{n}{2}\ln |2\pi\Sigma|-\frac{n}{2}\operatorname{tra}|\Sigma^{-1}S|-\frac{n}{2} (\bar{\mathcal{X}}-\mu) \Sigma^{-1}(\bar{\mathcal{X}}-\mu)^T\notag
\end{align}
$EMV$ de $\mu$ en $\bar{\mathcal{X}}$:
$\displaystyle l(\mathcal{X};\mu,\Sigma)=-\frac{n}{2}\ln |2\pi\Sigma|-\frac{n}{2}\operatorname{tra}|\Sigma^{-1}S|$
sustituyendo $\Sigma=QQ^T+\Psi$ tenemos que
\begin{equation}
l(\mathcal{X};\hat{\mu},Q,\Psi)=-\frac{n}{2}\{\ln |2\pi(QQ^T+\Psi)|+\operatorname{tra}[(QQ^T+\Psi)^{-1}]S\}
\end{equation}
Maximizando al derivar con respecto a $Q$ y $\Psi$, además con el supuesto de que $Q^T\Psi^{-1}Q=D$ es diagonal, se obtienen las siguientes ecuaciones:
\begin{displaymath}
\left\{ \begin{array}{ll}
\hat{\Psi}=\operatorname{diag}(S-\hat{Q}\hat{Q}^T)\\
(\hat{\Psi}^{-1/2}(S-I)\hat{\Psi}^{-1/2})(\hat{\Psi}^{-1/2}\hat{Q})=
(\hat{\Psi}^{-1/2}\hat{Q})D\\
\hat{Q}^T\Psi^{-1}\hat{Q}=D
\end{array} \right.
\end{displaymath}
\subsubsection*{Algortimo 9}
\begin{enumerate}
\item Partir de $\hat{Q}$ (puede usar factor principal), luego $\hat{\Psi}=diag(S-QQ^T)$
\item A (simétrica) donde:
\begin{align}
A&=\hat{\Psi}^{-1/2}(S-\hat{\Psi})\hat{\Psi}^{-1/2}\notag\\
&=\hat{\Psi}^{-1/2}S\hat{\Psi})\hat{\Psi}^{-1/2}-I\notag
\end{align}
\item Encontrar la descomposición espectral de A, $A=\mathcal{G}\mathcal{L}\mathcal{G}^T$\\
donde $\mathcal{L}=diag(l_1,\ldots,l_p)$ donde $l_1\geq l_2\geq \ldots \geq l_p$ con autovectores $g_1,\ldots,g_p$ de $\mathcal{G}$.\\
Tomar los $k$ autovalores más grandes y positivos, i.e. $l_1 \geq l_2 \geq \ldots \geq l_k>0$ y se tiene\\
$\mathcal{L}_1=diag(l_1,\ldots,l_k)$ y sus respectivos autovectores en $\mathcal{G}_1$
\item Tomar $\hat{Q}=\hat{\Psi}^{\frac{1}{2}}\mathcal{G}_1 \mathcal{L}^{-\frac{1}{2}}$ y sustituir $\hat{Q}$ en (1), maximizar para $\Psi$, iterar a partir de 2 hasta la convergencia.
\end{enumerate}
\subsection*{Prueba de Razón de Verosimilitud para el Número de Factores Comunes}
$H_0:\Sigma=QQ^T+\Psi$\\
$H_1$:no modelo factorial\\
Sean $\hat{\Psi}$ y $\hat{Q}$ estimador de máxima verosimilitud(EMV) con
$S\doteq \hat{Q}\hat{Q}^T+\hat{\Psi}$, luego
\begin{align}
-2\ln \left( \frac{MVH_0}{MVSR} \right)&=n\ln \left( \frac{|\hat{Q}\hat{Q}^T+\hat{\Psi}|}{|S|} \right)\notag\\
&\sim \chi^2_{\frac{1}{2}(p-k)^2+\frac{1}{2}(p+k)}\notag
\end{align}
donde $MVSR$ es la máxima verosimilitud sin restricción.\\
La corrección de $Bartletts$ reemplaza $n$ por $\displaystyle \frac{(n-1)-(2p+4k+5)}{6}$, además rechaza $H_0$ si
$$\left[ n-1-\left(\frac{2p+4k+5}{6}\right) \right] n \ln \left( \frac{|\hat{Q}\hat{Q}^T+\hat{\Psi}|}{|S|} \right)>\chi^2_{1-\alpha; \frac{1}{2}(p-k)^2-\frac{1}{2}(p+k)}$$
\subsection*{Método Varimax}
Estandarizar las cargas factoriales $\tilde{q}$:
$\displaystyle \tilde{q}_{jl}=\frac{\hat{q}^v_{jl}}{\hat{h}^v_j}$,
queremos que $V$ sea máxima
\begin{equation*}
V=\sum_{j=1}^k \left\{ \frac{1}{p} \sum_{j=1} (q^v_{jl})^4 - \left( \frac{1}{4} \sum_{j=1}^p \hat{q}^v_{jl}\right)^2 \right\}
\end{equation*}
\subsection*{Estimación de los Factores(Puntajes Factoriales)}
\begin{enumerate}
\item Sea $X-\mu=QF+U$ donde $U \sim N(0,\Psi)$ y $X-\mu \sim N(QF,\Psi)$
\begin{align}
\hat{F}&=(Q^T \Psi^{-1} Q)^{-1} Q^T \Psi^{-1}(X-\mu)\notag\\
\hat{f}_i&=(\hat{Q}^T \Psi^{-1} \hat{Q})^{-1} \hat{Q}^T \hat{\Psi}^{-1} (x_i-\mu)\notag
\end{align}
\item Sea $X-\mu=QF+U$ con $F$ variable aletoria
\begin{align}
\operatorname{E}(F|X=x)&=Q^T \Sigma^{-1}(X-\mu)\notag\\
\hat{f}_i&=Q^T S^{-1}(x_i-\mu)\notag
\end{align}
\end{enumerate}
\subsection*{Análisis de Conglomerados}
El objetivo es formar grupos que sean entre ellos (heterogéneos) y dentro de ellos (homogéneos).\\
Pasos para realizar el análisis de conglomerados.
\begin{enumerate}
\item Seleccionar una medida de proximidad (similaridad), así se conoce que tan cercanos son dos unidades si sus valores están cerca.\\
$i \rightarrow x^T_i=(x_{i1},x_{i2},\dots,x_{ip})$\\
$j \rightarrow x^T_j=(x_{j1},x_{j2},\dots,x_{jp})$
\item Seleccionar algoritmo de agrupación. Tal que las unidades dentro de los conglomerados sean lo más homogéneas posibles, y entre los grupos lo más heterogéneos posibles (basados en la medida de la proximidad seleccionada).
\end{enumerate}
\subsubsection*{Proximidad Entre Objetos}
$D=
\begin{pmatrix}
d_{11} & d_{12} & \ldots & d_{1n}\\
d_{21} & d_{22} & \ldots & d_{2n}\\
\vdots & \vdots & \ddots & \vdots\\
d_{n1} & d_{n2} & \ldots & d_{nn}\\
\end{pmatrix}$
\subsection*{Similaridad Entre Objetos en Estructura Binaria}
Sea $(x_i,x_j)$ donde $x^T_i=(x_{i1},x_{i2},\ldots,x_{ip})$ y
$x^T_j=(x_{j1},x_{j2},\ldots,x_{jp})$ con $x_{ik},x_{jk} \in (0,1)$
$$d_{ij}=\frac{a_1+\delta a_4}{a_1+\delta a_4+\lambda (a_2+a_3)}$$
donde
\begin{align*}
a_1&=\sum_{k=1}^p I_{x_{ik}=x_{jk}=1}\qquad
a_2&=\sum_{k=1}^p I_{x_{ik}=0,x_{jk}=1}\qquad
a_3&=\sum_{k=1}^p I_{x_{ik}=1,x_{jk}=0}\qquad
a_4&=\sum_{k=1}^p I_{x_{ik}=x_{jk}=0}
\end{align*}
La naturaleza de las variables determinar la medida de similaridad.
\subsubsection*{Ejemplo 10}
\begin{tabular}{l r r r r r r r r r r}
& $x_1$ & $x_2$ & $x_3$ & $x_4$ & $x_5$ & $x_6$ & $x_7$ & $x_8$ & $x_9$ & $x_{10}$\\
i & 1 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
j & 0 & 1 & 1 & 1 & 1 & 0 & 1 & 0 & 0 & 0
\end{tabular}\\
$a_1=2$, $a_2=3$, $a_3=1$, $a_4=4$\\
usando Jaccard $d_{ij}=\frac{1}{3}$\\
\begin{tabular}{|l|r|r|r|}\hline
Nombre & $\delta$ & $\lambda$ & Definición \\\hline
Jaccard & 0 & 1 & $\displaystyle \frac{a_1}{a_1+a_2+a_3}$\\
Tanimoto & 1 & 2 & \\
Pareo Simple & 1 & 1 & \\\hline
\end{tabular}\\
\subsection*{Medidas de Distancia para Variables Continuas}
Norma $L_r$ con $r \geq 1$
\begin{align*}
d_{ij}&=\|x_i-x_j\|\\
&=\left( \sum_{k=1}^p |x_{ik}-x_{jk}|^r \right)^{1/r}\\
&=\sqrt{\sum_{k=1}^p (x_{ik}-x_{jk})^2}
\end{align*}
Al utilizar la norma $L_r$ es conveniente que las mediciones esten en la misma escala, si no entonces estandarizamos
\begin{align*}
d^2_{ij}&=(x_i-x-j)^T A(x_i-x_j)\\
&=\| x_i-x_j \|_A
\end{align*}
En particular si $\displaystyle A=\operatorname{diag}\left(\frac{1}{S_{x_1x_1}},\ldots,\frac{1}{S_{x_px_p}}\right)$ entonces
$\displaystyle d^2_ij=\sum_{k=1}^p \frac{(x_{ik}-x_{jk})^2}{S_{x_k x_k}}$
que no depende de la escala de medida.
\subsubsection*{Ejemplo 11}
$r=2$, norma $L_2$
\subsection*{Métrica $\chi^2$ para Comparar Filas o Columnas de una Tabla de Contingencia}
\begin{tabular}{l|r r r r r|r}
& 1 & \ldots & j & \ldots & p & \\\hline
1 & $x_{11}$ & \ldots & $x_{1j}$ & \ldots & $x_{1p}$ & $x_{1.}$\\
\vdots & \vdots & & \vdots & & \vdots & \vdots\\
i & $x_{i1}$ & \ldots & $x_{ij}$ & \ldots & $x_{ip}$ & $x_{i.}$\\
\vdots & \vdots & & \vdots & & \vdots & \vdots\\
n & $x_{n1}$ & \ldots & $x_{nj}$ & \ldots & $x_{np}$ & $x_{n.}$\\\hline
& $x_{.1}$ & \ldots & $x_{.j}$ & \ldots & $x_{.p}$ & $x_{..}$
\end{tabular}\\
Distribución marginal de fila $i$, $\frac{x_{i.}}{x_{..}}$ donde
$\displaystyle x_{i.}=\sum_{j=1}^p x_{ij}\qquad x_{..}=\sum_{i=1}^n \sum_{j=1}^p x_{ij}$\\
Para columna $j$: $\displaystyle \frac{x_{.j}}{x_{..}}$ con
$\displaystyle x_{.j}=\sum_{i=1}^n x_{ij}$\\
Distribución condicional de fila $i$:
$\displaystyle \frac{x_{.j}}{x_{..}} \longrightarrow \left( \frac{x_{i1}}{x_{i.}}, \ldots, \frac{x_{ij}}{x_{i.}}, \ldots, \frac{x_{ip}}{x_{i.}} \right)$\\
Para columna $j$:
$\displaystyle \frac{x_{ij}}{x_{.j}} \longrightarrow \left( \frac{x_{1j}}{x_{.j}}, \ldots, \frac{x_{ij}}{x_{.j}}, \ldots, \frac{x_{nj}}{x_{.j}} \right)$\\
Distancia entre la fila $i_1$ y la fila $i_2$:
$\displaystyle d^2(i_1,i_2)=\sum_{j=1}^p \frac{1} {\frac{x_{.j}}{x_{..}}}
\left( \frac{x_{i_1j}}{x_{i_1.}}-\frac{x_{i_2j}}{x_{i_2.}} \right)^2$\\
Distancia entre la columna $j_1$ y la columna $j_2$:
$\displaystyle d^2(j_1,j_2)=\sum_{i=1}^p \frac{1}{\frac{x_{i.}}{x_{..}}}
\left( \frac{x_{ij_1}}{x_{.j_1}}-\frac{x_{ij_2}}{x_{.j_2}} \right)^2$
\subsection*{Coeficiente de Correlación $Q$ como Medida de Similaridad}
Sean $x_i^T=(x_{i1},\ldots,x_{ip})$ y $x_j^T=(x_{j1},\ldots,x_{jp})$
$$\displaystyle d_{ij}=\frac{ \sum_{k=1}^p (x_{ik}-\bar{x}_i)(x_{jk}-\bar{x}_j)^2} { \sqrt{ \left[ \sum_{k=1}^p (x_{ik}-\bar{x}_i)^2 \right] - \left[ \sum_{k=1}^p (x_{jk}-\bar{x}_j)^2 \right]}} $$
\subsection*{Clasificación Automática}
\begin{enumerate}
\item Seleccionar medida de proximidad o distancia
\item Seleccionar algoritmo de conglomeración
\end{enumerate}
\subsection*{Algoritmos de Conglomeración}
De los algoritmos más usuales están los
\begin{enumerate}
\item Jerárquicos
\begin{itemize}
\item [a.] Jerárquicos conglomerativos (asociativos)
\item [b.] Jerárquicos divisivos (disasociativos)
\end{itemize}
\item De partición
\end{enumerate}
\subsection*{Jerárquicos Conglomerativos}
Parten con $n$ conglomerados (cada observación es un conglomerado).\\
Se unen los dos más cercanos para formar $(n-1)$ conglomerados, se une hasta formar un sólo conglomerado conformado por $\mathcal{X}$
\subsection*{Jerárquicos Divisivos}
Parte de un sólo conglomerado que es $\mathcal{X}$, se va dividiendo hasta tener $n$ conglomerados (conformados por cada observación)
\subsection*{De Partición}
Parte de un número preestablecido de conglomerados y se van intercambiando las observaciones hasta optimizar algún puntaje.
\subsection*{Algoritmo Aglomerativo}
\begin{enumerate}
\item Construir $n$ grupos cada con uno con una observación
\item Calcular la matriz de distancia $D$
\item Encontrar los conglomerados con la distancia más cercana
\item Unir en un sólo conglomerado los encontrados en 3
\item Calcular $D$ restringida entre los grupos nuevos
\end{enumerate}
Repetir $3,4,5$ hasta tener un sólo conglomerado formado por $\mathcal{X}$
\subsection*{Distancia Utilizada Entre Dos Grupos}
Sea $P+Q$ que resulta de unir $P$ y $Q$. $R$ otro grupo
$$d(R,P+Q=\delta_1 d(R,P)+\delta_2 d(R,Q)+\delta_3 d(P,Q)+\delta_4 |d(R,P)-d(R,Q)|$$
\begin{tabular}{l|r|r|r|r}
Nombre & $\delta_1$ & $\delta_2$ & $\delta_3$ & $\delta_4$\\\hline
Encadenamiento simple & 1/2 & 1/2 & 0 & -1/2\\
Encadenamiento completo & 1/2 & 1/2 & 0 & 1/2\\
Encadenamiento promedio & 1/2 & 1/2 & 0 & 0\\
Encadenamiento promedio ponderado & $\displaystyle\frac{n_P}{n_P+n_Q}$ & $\displaystyle\frac{n_Q}{n_P+n_Q}$ & 0 & 0\\
Centroide & $\displaystyle\frac{n_P}{n_P+n_Q}$ & $\displaystyle\frac{n_Q}{n_P+n_Q}$ & $-\displaystyle\frac{n_P n_Q}{(n_P+n_Q)^2}$ & 0\\
Mediana & 1/2 & 1/2 & 1/4 & 0\\
Ward & $\displaystyle\frac{n_R+n_P}{n_R+n_P+n_Q}$ & $\displaystyle\frac{n_R+n_Q}{n_R+n_P+n_Q}$ &
$-\displaystyle\frac{n_R}{n_R+n_P+n_Q}$ & 0
\end{tabular}\\
Ward $$n_P=\sum_{i=1}^n I(x_i \in P)$$
Encadanamiento simple modificado $d(R,P+Q)=\min\{d(P,R),d(Q,R)\}$\\
Encadanamiento completo modificado $d(R,P+Q)=\max\{d(P,R),d(Q,R)\}$
\subsubsection*{Ejemplo 12}
Sea
\begin{align*}
D&=
\begin{pmatrix}
0 & & & & \\
9 & 0 & & &\\
3 & 7 & 0 & &\\
6 & 5 & 9 & 0 &\\
11 & 10 & 2 & 8 & 0
\end{pmatrix}\\
&=
\begin{pmatrix}
0 & & &\\
3 & 0 & &\\
7 & 9 & 0 &\\
8 & 5 & 6 & 0
\end{pmatrix}
\end{align*}
\subsection*{Análisis de Discriminante}
\begin{itemize}
\item Descriptivo
\item Predictivo (el objetivo es clasificar observaciones en grupos ya conocidos)
\end{itemize}
\subsection*{Reglas de Clasificación para Distribuciones Conocidas}
Suponga que tenemos las poblaciones $\Pi_j$; $j=1,\ldots,J$ y se tiene que clasificar una observación con $x^ T=(x_1,\ldots,x_p)$ a una de estas poblaciones.
Regla discriminante es una separación del espacio muestral $\mathbf{R}^p$ en conjuntos $R_j$ tal que si $x\in R_j$ identificamos la observación como de la población $\Pi_j$
\subsection*{Regla Discriminante de Máxima Verosimilitud (RDML)}
Sea $f_i(x)$ la densidad de la población $\Pi_i$. La $RDML$ clasificara a $x$ en $\Pi_j$ si $f_j(x)$ es el máximo de la verosimilitud, i.e.
\begin{align*}
L_j&=f_j(x)\\
&=\max_i f_i(x)
\end{align*}
En caso de que hayan varias se clasifican en cualquiera $R_j=\{x:L_j(x)>L_i(x); i=1,\ldots,J; i\neq j\}$
\subsection*{Regla que Minimiza el Costo Esperado de la Mala Clasificacion (ECM)}
Suponga $J=2$
\begin{align*}
p_{21}&=\Pr(x\in R_2|\Pi_1)\\
&=\int_{R_2} f_1(x)dx\\
p_{12}&=\Pr(x\in R_1|\Pi_2)\\
&=\int_{R_1} f_2(x)dx\\
\end{align*}
Las observaciones mal clasificadas crean un costo $C(i|j)$: costo de asignarlos a $R_i$ dado que es de $\Pi_j$, tenemos\\
\begin{tabular}{l|r|r}
& $\Pi_1$ & $\Pi_2$\\\hline
$\Pi_1$ & 0 & $C(2|1)$\\\hline
$\Pi_2$ & $C(1|2)$ & 0
\end{tabular}\\
Suponga $\Pi_j$ la probabilidad a priori de que pertenece a $\Pi_j$\\
$$ECM=C(2|1)p_{21}\Pi_1+C(1|2)p_{12}\Pi_2$$
La regla que minimiza el ECM viene dado por
\begin{align*}
R_1&=\left\{ x:\frac{f_1(x)}{f_2(x)}\geq \left(\frac{C(1|2)}{C(2|1)}\right)
\left(\frac{\Pi_2}{\Pi_1}\right)\right\}\\
R_2&=\left\{ x:\frac{f_1(x)}{f_2(x)}< \left(\frac{C(1|2)}{C(2|1)}\right)
\left(\frac{\Pi_2}{\Pi_1}\right)\right\}
\end{align*}
\subsubsection*{Ejemplo 13}
Sea $\Pi_1=N(\mu_1, \sigma^2_1)$ y $\Pi_2=N(\mu_2, \sigma^2_2)$
$$f_i(x)=(2\pi \sigma^2_i)^{-1/2}e^{-1/2\left(\frac{x-\mu_i}{\sigma_i}\right)^2}$$
$x\in R_1$, luego
\begin{align*}
f_1(x)&\geq f_2(x)\\
\frac{f_1(x)}{f_2(x)}& \geq 1
\end{align*}
\begin{align*}
\frac{\sigma_2}{\sigma_1}e^{-1/2\left[ \left(\frac{x-\mu_1}{\sigma_1}\right)^2-
\left(\frac{x-\mu_2}{\sigma_2}\right)^2\right]}&\geq 1\\
-\frac{1}{2} \left[ \left( \frac{x-\mu_1}{\sigma_1} \right)^2- \left( \frac{x-\mu_2}{\sigma_2} \right)^2 \right]&\geq \ln\left(\frac{\sigma_2}{\sigma_1}\right)
\end{align*}
$\therefore x$ se clasifica en $\Pi_1$ si
$$x^2\left(\frac{1}{\sigma^2_1}-\frac{1}{\sigma^2_2}\right)
-2x\left( \frac{\mu_1}{\sigma^2_1}-\frac{\mu_2}{\sigma^2_2}\right)
+\left( \frac{\mu^1_1}{\sigma^2_1}-\frac{\mu^2_2}{\sigma^2_2}\right)
\leq \ln\left(\frac{\sigma_2}{\sigma_1}\right)$$
Si $\mu_1<\mu_2$ y $\sigma_1=\sigma_2=\sigma$. $x$ se clasifica en $\Pi_1$ si
\begin{align*}
\frac{3}{4}x^2+\frac{1}{2}x-\frac{1}{4}&\leq 2\ln 2=\ln 4\\
\frac{3}{4}x^2+\frac{1}{2}x-\left(\ln 4+\frac{1}{4}\right)&\leq 0\\
3x^2+2x-(\ln 256+1)&\leq 0\\
s&=4+4(3)(\ln 256+1)\\
&=4+12(\ln 256+1)\\
x&=\frac{-2\pm \sqrt{4+12(\ln 256+1)}}{6}\\
&=
\begin{cases}
-1.85\\
1.18
\end{cases}
\end{align*}
\subsubsection*{Teorema 14}
\begin{itemize}
\item [a.] La RDML clasifica $x$ a $\Pi_j$ con $j=1,\ldots,J$ cuando se minimiza la distancia al cuadrado de Mahalanoubis entre $x$ y $\mu_j$ con $i\neq j$ si
$\delta^2(x,\mu_j)\leq \delta^2(x,\mu_i)$
$$\delta^2(x,\mu_j)=(x-\mu)^T\Sigma^{-1}(x-\mu_j)$$
\item [b.] En el caso de $J=2$, $x\in R_1 \Longleftrightarrow \alpha^T(x-\mu)\geq 0$ donde $\displaystyle \alpha^T=(\mu_1-\mu_2)^T\Sigma^{-1} \quad \textrm{y} \quad \mu=\frac{1}{2}(\mu_1+\mu_2)$
\end{itemize}
\subsubsection*{Demostración}
b. $x\in R_1$ si $(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)-(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)\leq 0$
\begin{align*}
x^T \Sigma^{-1}x-x^T\Sigma^{-1}\mu_1-\mu^T_1\Sigma^{-1}x+\mu^T_1\Sigma^{-1}\mu_1-
x^T \Sigma^{-1}x+x^T\Sigma^{-1}\mu_2+\mu^T_2\Sigma^{-1}x-\mu^T_2\Sigma^{-1}\mu_2& \leq 0\\
-2\mu^T_1\Sigma^{-1}x+2\mu^T_2\Sigma^{-1}x+\mu^T_1\Sigma^{-1}\mu_1-\mu^T_2\Sigma^{-1}\mu_2& \leq 0\\
-2(\mu_1-\mu_2)^T\Sigma^{-1}x+(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)&\leq 0\\
(\mu_1-\mu_2)^T\Sigma^{-1}x-\frac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)&\geq 0\\
(\mu_1-\mu_2)^T\Sigma^{-1}\left(\frac{1}{2}(\mu_1-\mu_2)\right)\geq 0
\end{align*}
$\therefore \alpha^T(x-\mu)\geq 0 \qquad \diamondsuit$
\subsection*{Regla Discriminante de Bayes}
Sea $\Pi_i$ la probabilidad a priori de que $x$ pertenece a $\Pi_i$, $i=1,\ldots,J$.\\
Clasificamos $x$ como de $\Pi_j$ si $$\Pi_j f_j(x)=\max_i \{\Pi_i f_i(x)\}$$
\subsubsection*{Nota 15}
$\Pi_i=1/J$ luego la regla discriminante de Bayes es la RDML
\subsection*{Probabilidades de Mala Clasificación RML}
Sea $J=2$, recordar $\alpha^T=(\mu_1-\mu_2)^T \Sigma^{-1}$, $\mu=frac{1}{2}(\mu_1+\mu_2)$, $\Pi_1=N(\mu_1,\Sigma)$, $\Pi_2=N(\mu_2,\Sigma)$
\begin{align*}
p_{12}&=Pr{(x\in R_1|\Pi_2)}\\
&=\Pr{(\alpha^T(x-\mu)>0|\Pi_2)}\\
R_1&:(\mu_1-\mu_2)^T \Sigma^{-1} \left(x-\frac{1}{2}(\mu_1+\mu_2)\right)>0\\
&:y>\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1+\mu_2)\\
R_2&:(\mu_1-\mu_2)^T \Sigma^{-1} \left(x-\frac{1}{2}(\mu_1+\mu_2)\right)\leq 0\\
&: y \leq \frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1+\mu_2)\\
y&=(\mu_1-\mu_2)^T \Sigma^{-1} x\\
&=\alpha^Tx
\end{align*}
Como $y$ es combinación lineal de $x$, entonces $y\sim N$
\begin{align*}
\mu_{1y}&=\alpha^T \mu_1\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} \mu_1\\
\mu_{2y}&=\alpha^T \mu_2\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} \mu_2\\
\sigma^2_y&=\alpha^T \Sigma\alpha\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} \Sigma \Sigma^{-1}(\mu_1-\mu_2)\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1-\mu_2)\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1+\mu_2)
\end{align*}
Donde $\delta^2$ es la distancia de Mahalanobis al cuadrado entre $\Pi_1$ y $\Pi_2$
\begin{align*}
p_{12}&=\Pr\left(y>\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1}(\mu_1+\mu_2)|\Pi_2\right)\\
&=\left(z>\frac{\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1}(\mu_1+\mu_2)-(\mu_1-\mu_2)^T \Sigma^{-1}\mu_2}{\delta}\right)\\
&=\Pr\left(z>\frac{\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1}(\mu_1-\mu_2)}{\delta}\right)\\
&=\Pr\left(z>\frac{\frac{1}{2}\delta^2}{\delta}\right)\\
&=\Pr\left(z\leq -\frac{\delta}{2}\right)\\
&=\Phi\left(-\frac{\delta}{2}\right)
\end{align*}
\subsection*{Clasificación con Matrices de Covarianza Distintas}
Suponga $J=2$, $\Pi_1=N(\mu_1,\Sigma_1)$, $\Pi_2=N(\mu_2,\Sigma_2)$, las regiones de clasificación son definidas por funciones cuadráticas
\subsection*{Reglas Discriminantes en la Práctica}
Suponga los datos que provienen de $\Pi_j=N(\mu_j,\Sigma)$ y tenemos $J$ grupos con $n_j$ observaciones cada uno.
$$\hat{\mu_j}=\bar{x_j} \qquad \hat{\Sigma}=S_j$$
\subsection*{Estimación de la Matriz de Covarianzas Común}
$$\displaystyle S_u=\sum_{j=1}^J n_j\frac{S_j}{n-J} \qquad n=\sum_{j=1}^J n_j$$
La regla empírica $ML$ clasifica $x$ a $\Pi_j$ si $j$ minimiza
$\displaystyle (x-\bar{x}_i)^T S^{-1}_u(x-\bar{x}_i)$
\subsection*{Estimación de la Probabilidad de Mala Clasificación}
Sea $\displaystyle \hat{p}_{12}=\hat{p}_{21}=\Phi\left(-\dfrac{\hat{\delta}}{2}\right)$ entonces
$\hat{\delta}^2=(\bar{x}_1-\bar{x}_2)^T S^{-1} (\bar{x}_1-\bar{x}_2)$\\
Se puede utilizar el método de resustitución para tener una aproximación de la calidad de la regla discriminante, estimando $p_{ij}$ con
$\displaystyle \hat{p}_{ij}=\frac{n_{ij}}{n_j}$\\
$n_j$: numero de observaciones en $\Pi_j$\\
$n_{ij}$: número de observaciones de $\Pi_j$ clasificado como de $\Pi_i$, la matriz $(\hat{p}_{ij})$ es llamada matriz de confusión.
\end{document}