Régression logistique pour la détection de matériau
Autor
Amin Elg
Last Updated
hace 10 años
License
Creative Commons CC BY 4.0
Resumen
Template: (c) 2010 Association for Computing Machinery (ACM)
For tracking purposes => this is v1.3 - March 2012
% v2-acmsmall-sample.tex, dated March 6 2012
% This is a sample file for ACM small trim journals
%
% Compilation using 'acmsmall.cls' - version 1.3 (March 2012), Aptara Inc.
% (c) 2010 Association for Computing Machinery (ACM)
%
% Questions/Suggestions/Feedback should be addressed to => "acmtexsupport@aptaracorp.com".
% Users can also go through the FAQs available on the journal's submission webpage.
%
% Steps to compile: latex, bibtex, latex latex
%
% For tracking purposes => this is v1.3 - March 2012
\documentclass[prodmode,acmtecs]{acmsmall} % Aptara syntax
\usepackage[utf8]{inputenc} % Required for including letters with accents
\usepackage{verbatim}
\usepackage{calc}
\usepackage{geometry}
\usepackage{amssymb}
\usepackage{ulem}
\usepackage{xcolor}
\usepackage{graphicx}
\usepackage{lipsum}% Used for dummy text
\usepackage{eso-pic} % used for image background on titlepage
% Metadata Information
\acmVolume{1}
\acmNumber{1}
\acmArticle{P}
\acmYear{2015}
\acmMonth{3}
% Document starts
\begin{document}
\begingroup
\thispagestyle{empty}
\AddToShipoutPicture*{\put(0,0){\includegraphics[scale=0.5]{cover}}} % Image background
\centering
\vspace*{3,5cm}
\par\normalfont\fontsize{15}{20}\sffamily\selectfont
\textbf{RÉGRESSION LINÉAIRE LOGISTIQUE AVEC AJUSTEMENT DES DONNÉES POUR LA DÉTECTION DES MATÉRIAUX}\\
{\LARGE }\par % Book title
\vspace*{1cm}
{\large{Amin EL GAREH} }\par % Author name
\endgroup
\newpage
\section{Introduction}
\vspace{1em}
Nous souhaitons expliquer à partir d'un modèle statistique la nature (métallique ou rocheuse) d'un objet visé par sonar. Les mesures effectuées dans les différentes longueurs d'onde ont été recueillies et mises en relation avec le matériau de l'objet ciblé.\\
Le choix du modèle à retenir se doit d'être en cohérence avec les données, puisque nous nous intéressons à la prédiction d'une variable qui prend deux modalités: 'M' pour métallique et 'R' pour rocheuse, alors la régression logistique, cas particulier du modèle linéaire généralisé, s'avère être adaptée à notre situation.
La régression logistique est connue pour avoir été la première méthode utilisée, notamment en marketing pour le scoring et en épidémiologie,
pour aborder la modélisation d’une variable binaire binomiale ou de Bernoulli: possession
on non d’un produit, décès ou survie d’un patient, absence ou présence d’une pathologie...\\
Cependant, elle conduit à des interprétations pouvant être complexes mais rentrées dans les usages pour quantifier, par exemple, des facteurs de risque liés à une pathologie, une faillite... Cette méthode reste donc celle la plus utilisée
même si, en terme de qualité prévisionnelle, d’autres approches sont susceptibles,
en fonction des données étudiées, d’apporter de bien meilleurs résultats.
\vspace{1em}
% Head 1
\section{présentation du modèle linéaire généralisé \& logit}
\vspace{1em}
Le modèle linéaire généralisé a été développé à partir de 1972 par Nelder et Wedderburn, dont
l'exposé détaillé est présenté dans les ouvrages de Nelder et Mc Cullagh (1983), d'Agresti (1990) ou d'Antoniadis et al. (1992).\\
L’idée ici est d’introduire le cadre théorique général permettant de regrouper tous les modèles linéaires, en particulier celui dit logit, et qui repose sur le fait d'exprimer l’espérance de la variable à expliquer en fonction d’une combinaison linéaire des variables explicatives.
\vspace{1em}
\subsection{Distribution et densité de la variable à expliquer}
\vspace{1em}
Soit un échantillon constitué de $n$ variables aléatoires $\{Y_i,\:i=1,...,n\}$ indépendantes admettant des distributions issues d’une structure exponentielle. Cela signifie que la densité (par rapport à une mesure de comptage ou la mesure de Lebesgue) de la variable $Y_i$ s'écrit sous la forme:
\[
f(y_i,\theta_i,\phi)\:=\:exp\left(\:\frac{y\:\theta_i\:-\:b(\theta_i)}{a(\phi)}\:+\:c(y_i,\phi)\:\right)
\]
où $\theta_i$ est le paramètre de position et $\phi$ le paramètre de dispersion. On a par ailleurs
\[
\mathbb{E}[Y_i]\:=\:\mu_i\:=\:b'(\theta_i) \quad \textnormal{et} \quad Var(Y_i)=b''(\theta_i)\:a(\phi)
\]
\vspace{0.5em}
La densité de la variable $Y_i$ peut aussi se mettre sous forme canonique.\\
D'abord en remarquant que pour certaines lois la fonction $a(\phi)$ s'écrit:
\[
a(\phi)\:=\:\frac{\phi}{\omega_i} \quad \textnormal{avec }\: \omega_i \: \textnormal{ sont les poids connus des observations, fixés ici à 1.}
\]
Et ensuite en posant $Q(\theta_i)=\frac{\theta_i}{\phi}$, $\:\:d(\theta_i)=exp(-\frac{b(\theta_i)}{\phi}) \:$ et $\:e(y_i)=exp\left(\:c(y_i,\phi)\:\right)$, on obtient la densité de $Y_i$ sous forme canonique suivante:
\begin{equation}
f(y_i,\theta_i)\:=\:d(\theta_i)\:e(y_i)\:exp(\:y_i\:Q(\theta_i)\:)
\end{equation}
\vspace{1em}
\subsection{Régression linéaire généralisée}
\vspace{1em}
Les observations des variables explicatives sont organisées dans la matrice $X$, et $\beta$ est un vecteur de $p+1$ paramètres, qui réunit les $p$ coefficients des variables explicatives ainsi que la constante de régression. Le prédicteur linéaire, composante déterministe du modèle, est le vecteur à $n$ composantes :
\[
\eta=X\:\beta
\]
\vspace{1em}
\subsection{Fonction de lien}
\vspace{1em}
Les fonctions de lien usuelles sont les fonctions de liens canoniques, supposée monotone et différentiable qui vérifient par définition,
\[
g(\mu_i)=\theta_i=\eta_i \quad \textnormal{où }\:\mu_i=\mathbb{E}[Y_i]
\]
\vspace{1em}
\subsection{Régression linéaire généralisée avec la fonction logit}
\vspace{1em}
Considérons $n$ variables aléatoires indépendantes notées $Y_i$, qui sont qualitatives (de modalités 1 ou 0), telles que la probabilité de succès est $\pi_i$ et d’espérance $\mathbb{E}[Y_i]=\pi_i$.\\
La fonction de densité de $Y_i$ est élément de la famille:
\[
f(y_i,\pi_i)\:=\:\pi_i^{y_i}\:(1-\pi_i)^{1-y_i}\:=\:(1-\pi_i)\:exp\left(\: y_i\:ln\left(\:\frac{\pi_i}{1-\pi_i}\:\right)\:\right)
\]
\vspace{1em}
En identifiant avec les termes de \textbf{(1)}, on remarque que:
\[
Q(\theta_i)\:=\:ln\left(\:\frac{\pi_i}{1-\pi_i}\:\right)
\]
\vspace{1em}
Or comme $Q(\theta_i)=\frac{\theta_i}{\phi}$, et puisque la mesure de dispersion $\phi$ est égale à $1$ alors
\[
Q(\theta_i)=\theta_i=g(\pi_i)
\]
\vspace{1em}
En sommes, la fonction de lien dite fonction logit est définie par
\[
g(\pi_i)\:=\:ln\left(\:\frac{\pi_i}{1-\pi_i}\:\right)
\]
\vspace{1em}
Et le modèle dit de régression logistique s'écrit
\[
ln\left(\:\frac{\pi_i}{1-\pi_i}\:\right) \:=\: x_i'\:\beta
\]
\newpage
\section{application du modèle logit pour la détection des matériaux }
\vspace{1em}
\subsection{Étude exploratoire des données}
\vspace{1em}
Nos données sont réunies dans un échantillon de 208 observations prises pour 61 variables. Les 60 premières variables quantifient l'énergie retransmise (après 'normalisation') dans les différentes longueurs d'onde. Tandis que la dernière variable qualifie la nature de l'objet, elle a été binarisée et vaut '1' si l'objet visé est du type rocheux et '0' s'il est métallique. Nous nous sommes intéressés aux variables quantitatives, et nous avons constaté qu'elles étaient fortement corrélées lorsqu'elles étaient voisines. Si on considère de telles variables corrélées comme étant prédictives, alors apparaissent des propriétés hautement indésirables dans notre modèle. Ce qui nous amène à un dilemme, soit on prend cet ensemble de variables pertinentes aussi complet que possible, au risque d'avoir des coefficients ininterprétables (choix exhaustif), soit on prend peu de variables bien qu'étant susceptibles d'être moins significatives (choix par parcimonie). Un autre aspect et non des moindres qui régit nos données est le fait qu'il existe un certain nombre de points influents, augmentant la variabilité des variables. Il est envisageable de réduire leurs variabilités au risque de perdre de l'information.
\vspace{3em}
\centerline{\includegraphics[scale=0.45]{Rplota}}
\begin{center}\small{Fig.1 - Répartition des mesures en fonction du matériau, représentée pour les 60 variables }\end{center}
\vspace{1em}
\centerline{\includegraphics[scale=0.45]{Rplotb}}
\begin{center}\small{Fig.2 - Graphique de corrélations de variables 2 à 2, représenté pour les 10 premières variables }\end{center}
\vspace{4em}
\subsection{Construction du modèle logit }
\vspace{1em}
\underline{$\blacktriangleright$ \textbf{\small{Étape 1 : Sélection des variables à partir du modèle complet}}}
\vspace{1em}
\dashuline{$\bullet$ \textbf{\small{Modèle complet}}}
\vspace{1em}
\fbox{
\begin{minipage}[t]{\textwidth - 2\fboxsep}
\verbatiminput{codea.txt}
\end{minipage}
}
\vspace{1em}
\verbatiminput{warna.txt}
\newpage
\dashuline{$\bullet$ \textbf{\small{Procédure de sélection des variables}}}
\vspace{0.5em}
Il existe plusieurs méthodes de sélection automatique de variables sur le logiciel \textbf{R}, leur l'objectif est de choisir le meilleur ensemble de variables explicatives.
\vspace{1em}
Du fait qu'on ne peut évaluer le modèle complet puisque l'algorithme de Fisher scoring n'a pas convergé, alors il semble être plus judiscieux d'effectuer une sélection ascendante avec réévaluation du modèle courant plutôt qu'une sélection descendante.\\ La procédure sur \textbf{R} le permettant est: \textbf{stepwise} (voir package 'Rcmdr') avec l'option \textbf{direction="forward/backward"}, et qui s'éxecute de la manière suivante:
\vspace{1em}
Le modèle de départ est le modèle comprenant une constante, et auquel on a ajouté une variable. A chaque étape de la procédure, on examine à la fois si une nouvelle variable doit être ajoutée selon un seuil d'entrée fixé, et si une des variables déjà incluses doit être éliminée selon un seuil de sortie fixé. Cette méthode permet de retirer du modèle d'éventuelles variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites. La procédure s'arrête lorsque aucune variable ne peut être rajoutée ou retirée du modèle selon les critères choisis.
\vspace{1em}
\dashuline{$\bullet$ \textbf{\small{Critère d'information}}}
\vspace{0.5em}
Le critère d'information que nous allons utiliser est le critère d'Akaike,
\[
AIC\:=\:2k\:-\:2 ln(L)
\]
où $k$ est le nombre de paramètres à estimer et L est le maximum de la fonction de vraisemblance du modèle.
\vspace{2em}
\dashuline{$\bullet$ \textbf{\small{Modèle sélectionné}}}
\vspace{1em}
\fbox{
\begin{minipage}[t]{\textwidth - 2\fboxsep}
\verbatiminput{codeb.txt}
\end{minipage}
}
\vspace{2em}
\verbatiminput{codec.txt}
\vspace{2em}
\dashuline{$\bullet$ \textbf{\small{Discussion:}}}
\vspace{0.5em}
On parle de succès de prédiction lorsque la probabilité de prédire un objet de type rocheux est supérieure à $0.5$, et lorsque que la probabilité de prédire un objet de type métallique est inférieure ou égale à $0.5$.
\vspace{1em}
\verbatiminput{coded.txt}
\vspace{1em}
Dans $87,6\%$ des cas, on a réussi à prédire la nature rocheuse de l'objet visé, et dans $91\%$ des cas sa nature métallique.
\newpage
\verbatiminput{codeh.txt}
\vspace{1em}
On peut tout de même discuter de la qualité du modèle, puisque seulement $\sim 80\%$ des valeurs prédictes ont une forte probabilité de correspondre à la vraie valeur, voir \textbf{Fig.3}. Ici on parle de forte probabilité lorsque la probabilité de prédire un objet de type rocheux est comprise entre $0,8$ et $1$, et lorsque la probabilité de prédire un objet métallique est comprise entre $0$ et $0,2$.
\vspace{1em}
\centerline{\includegraphics[scale=0.30]{Rplotc}}
\begin{center}\small{Fig.3 - Répartition des prédictions en fonction du matériau }\end{center}
\centerline{\includegraphics[scale=0.30]{Rplotd}}
\begin{center}\small{Fig.4 - Répartition des résidus en fonction du matériau }\end{center}
\newpage
\underline{$\blacktriangleright$ \textbf{\small{Étape 2 : Sélection des variables à partir du modèle ajusté}}}
\vspace{1em}
De nombreux indicateurs existent afin d'évaluer la qualité et la robustesse des modèles estimés, leurs rôles sont de détecter les valeurs influentes.
\vspace{1em}
\dashuline{$\bullet$ \textbf{\small{Effet de levier}}}
\vspace{0.5em}
On construit la matrice de projection (hat matrix),
\[
H\:=\:W^{\frac{1}{2}}X\:(X'WX)^{-1}\:X'W^{\frac{1}{2}}
\]
relative au produit scalaire de la matrice de 'pondération' de diagonale $\:\:W_{ii}=\frac{1}{Var(Y_i)}\left(\frac{\mu_i}{\eta_i}\right)^2$, sur le sous-espace engendré par les variables explicatives.
\vspace{1em}
L'effet de levier consiste à étudier les termes diagonaux $H_{ii}$, ceux qui sont supérieurs à $\frac{3(p+1)}{n}$ sont considérés comme influents, ajuster les données revient à retirer les observations faites pour ces valeurs.
\vspace{1em}
\centerline{\includegraphics[scale=0.45]{Rplotf}}
\begin{center}\small{Fig.5 - $H_{ii}$ en fonction des observations }\end{center}
\newpage
\dashuline{$\bullet$ \textbf{\small{Modèle sélectionné après ajustement}}}
\vspace{1em}
\fbox{
\begin{minipage}[t]{\textwidth - 2\fboxsep}
\verbatiminput{codef.txt}
\end{minipage}
}
\vspace{1em}
\verbatiminput{codee.txt}
\vspace{1em}
\dashuline{$\bullet$ \textbf{\small{Discussion:}}}
\vspace{1em}
\verbatiminput{codeg.txt}
\vspace{1em}
Dans $95,2\%$ des cas, on a réussi à prédire la nature rocheuse de l'objet visé, et dans $96,2\%$ des cas sa nature métallique.
\vspace{1em}
\verbatiminput{codei.txt}
\vspace{1em}
Cette fois-ci, la qualité du modèle est indiscutable puisque suite à l'ajustement des données on a $\sim 90\%$ des valeurs prédictes qui ont une forte probabilité de correspondre à la vraie valeur, voir \textbf{Fig.6}. Cependant, pour arriver à ce type de résultat on a dû retirer (par effet de levier) 20 observations parmi les 208 observations de l'échantillon.
\newpage
\centerline{\includegraphics[scale=0.45]{Rplotg}}
\begin{center}\small{Fig.6 - Répartition des prédictions en fonction du matériau }\end{center}
\centerline{\includegraphics[scale=0.50]{Rploth}}
\begin{center}\small{Fig.7 - Répartition des résidus en fonction du matériau }\end{center}
\newpage
\section{Annexe}
\vspace{1em}
\verbatiminput{codez.txt}
\newpage
\section{Conclusion}
\vspace{1em}
En conclusion, cette présentation sommaire de la régression logistique rappelle qu’elle constitue une excellente technique lorsqu’il s’agit de déterminer des prédicteurs d’un phénomène. Bien qu'elle compte certains
postulats et qu'elle exige une interprétation rigoureuse, elle
s'applique dans une multitude de recherches. La création de modèles à partir de celle-ci exige une réflexion sur la
problématique de même qu’une analyse minutieuse des résultats afin de divulguer une explication juste et détaillée
du phénomène à l'étude.
\vspace{2em}
\section{Références}
\vspace{1em}
\textbf{\textit{Introduction au modèle linéaire général.}} Université de Toulouse.\\ \url{http://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-modlin-mlg.pdf}.\\
\textbf{\textit{L’analyse de régression logistique,}}Julie Desjardins. Université de Montréal.\\ \url{http://www.tqmp.org/Content/vol01-1/p035/p035.pdf}.\\
\end{document}