Analyse de la variance (ANOVA)

Prenons le cas d’une ANOVA à 1 facteur avec les notations suivantes :

soit \(X\) une variable explicative à k modalités \(X_1, X_2, \ldots, X_k\) d’effectifs \(n_1, n_2, \ldots, n_k\).
soit \(Y\) une variable numérique de moyenne \(\mu\).
soit \(n\) le nombre total d’individus

L’analyse de la variance teste alors l’indépendance de \(X\) et \(Y\) selon le modèle suivant : \(y_i = \mu + \alpha_i + \epsilon_i\), y est la variable à expliquer, \(\mu\) est une constante, \(\alpha\) la variable explicative à effet fixe ou aléatoire et \(\epsilon\) l’erreur de mesure. On pose l’hypothèse fondamentale que l’erreur suit une loi normale centrée, de variance \(\sigma^2 \).

Contrairement à ce que son nom peut laisser croire, l’ANOVA est un test d’égalité de la moyenne en décomposant la variance de \(Y\) en deux parties :

Variances interclasses (attribuées aux différences entre groupes)
Soient \(\mu_i\) la moyenne de Y calculée sur tous les individus pour lesquels \(X\) vaut \(X_i\). On définit de même \(V_i\) la variance de \(Y\), soit la somme de \((Y-\mu_i)^2\)/\((n_1-1)\) avec \(n_i\) les individus à l’intérieur de la classe \({x_i}\).
Variances intraclasses ou erreurs (attribuées aux variations aléatoires)

L’intensité de la liaison entre \(X\) et \(Y\) est communément mesurée par le \(R^2\) défini par :

\[R^2 = \frac{\text{somme des carrés interclasses}}{\text{somme des carrés totaux}} = \frac{\sum^k_{i=1} n_i(\mu_i - \mu)^2}{\sum^n_{j=1}(y_i - \mu)^2}\]

Il existe différents types d’ANOVA en fonctions du nombre de variables explicatives et de leur nature. Les fonctions suivantes représentent une partie des fonctions disponibles dans MATLAB :

anova1, anova2 et anovan pour l’analyse de la variance à 1, 2 ou n facteurs
multcompare pour le test de comparaison multiple
kruskalwallis pour le pendant non paramétrique du test de la variance
manova pour l’analyse multivariée de la variance
coeftest pour l’analyse multivariée de la variance sur des modèles de mesures répétées.

Exemples et démonstrations

Analyse de la variance à un facteur - Exemple
Analyse de la variance à deux facteurs - Exemple
Analyse de la variance multifactorielle - Exemple
Anova à un facteur et à deux facteurs non paramétriques : Kruskal-Wallis - Exemple
Anova à un facteur et à deux facteurs non paramétriques : Friedman - Exemple

Références

Analyse de la variance et covariance – Exemples des fonctions MATLAB - Documentation
Etude des mesures répétées et analyse de la variance multivariée - Documentation

Voir aussi: Apprentissage automatique avec MATLAB, Régression linéaire, Programmation linéaire, Big data, Calcul parallèle, Apprentissage supervisé, Apprentissage non supervisé

Introduction à Statistics and Machine Learning Toolbox

Tutoriels gratuits

Statistics Onramp

Commencer