Analyse de la variance (ANOVA)

Analyse de la variance (ANOVA)

Prenons le cas d’une ANOVA à 1 facteur avec les notations suivantes :

  • soit \(X\) une variable explicative à k modalités \(X_1, X_2, \ldots, X_k\) d’effectifs \(n_1, n_2, \ldots, n_k\).
  • soit \(Y\) une variable numérique de moyenne \(\mu\).
  • soit \(n\) le nombre total d’individus

L’analyse de la variance teste alors l’indépendance de \(X\) et \(Y\) selon le modèle suivant : \(y_i = \mu + \alpha_i + \epsilon_i\), y est la variable à expliquer, \(\mu\) est une constante, \(\alpha\) la variable explicative à effet fixe ou aléatoire et \(\epsilon\) l’erreur de mesure. On pose l’hypothèse fondamentale que l’erreur suit une loi normale centrée, de variance \(\sigma^2 \).

Contrairement à ce que son nom peut laisser croire, l’ANOVA est un test d’égalité de la moyenne en décomposant la variance de \(Y\) en deux parties :

  • Variances interclasses (attribuées aux différences entre groupes)
    Soient \(\mu_i\) la moyenne de Y calculée sur tous les individus pour lesquels \(X\) vaut \(X_i\). On définit de même \(V_i\) la variance de \(Y\), soit la somme de \((Y-\mu_i)^2\)/\((n_1-1)\) avec \(n_i\) les individus à l’intérieur de la classe \({x_i}\).
  • Variances intraclasses ou erreurs (attribuées aux variations aléatoires)

L’intensité de la liaison entre \(X\) et \(Y\) est communément mesurée par le \(R^2\) défini par :

\[R^2 = \frac{\text{somme des carrés interclasses}}{\text{somme des carrés totaux}} = \frac{\sum^k_{i=1} n_i(\mu_i - \mu)^2}{\sum^n_{j=1}(y_i - \mu)^2}\]

Il existe différents types d’ANOVA en fonctions du nombre de variables explicatives et de leur nature. Les fonctions suivantes représentent une partie des fonctions disponibles dans MATLAB :

  • anova1, anova2 et anovan pour l’analyse de la variance à 1, 2 ou n facteurs
  • multcompare pour le test de comparaison multiple
  • kruskalwallis pour le pendant non paramétrique du test de la variance
  • manova pour l’analyse multivariée de la variance
  • coeftest pour l’analyse multivariée de la variance sur des modèles de mesures répétées.

Voir aussi: Apprentissage automatique avec MATLAB, Régression linéaire, Programmation linéaire, Big data, Calcul parallèle, Apprentissage supervisé, Apprentissage non supervisé