Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analyser et modéliser des données à l'aide de statistiques et du Machine Learning

En savoir plus:

Analyse exploratoire

Explorez les données de manière interactive à l'aide de graphiques statistiques. Identifiez des modèles et des caractéristiques avec le clustering.

Visualisations

Explorez visuellement les données avec des tracés de probabilité, des boîtes à moustaches (box plot), des histogrammes, des diagrammes quantile-quantile et des graphiques avancés d'analyse multivariée, tels que des dendrogrammes, des diagrammes de double projection (biplot) et des graphiques d'Andrews.

Identifiez visuellement l'impact de diverses caractéristiques d'une voiture sur la consommation.

Utilisez un scatter plot multidimensionnel pour explorer les relations entre les variables.

Statistiques descriptives

Décrivez et comprenez rapidement vos jeux de données potentiellement importants à l’aide de quelques caractéristiques très pertinentes.

Visualisez la plage de vos variables potentiellement prédictives à l'aide de moyennes et de boxplots.

Explorez les données à l'aide de moyennes et de variances groupées.

Analyse de clusters

Découvrez des modèles en groupant des données à l'aide des k-means, des k-medoids, du DBSCAN (Density-Based Spatial Clustering of Applications with Noise), du clustering hiérarchique et spectral, des mélanges gaussiens et des chaînes de Markov cachées.

Le DBSCAN peut séparer des clusters lorsque les autres méthodes de clustering ont échoué.

Application d'un DBSCAN à deux groupes concentriques.

Extraction de caractéristiques et réduction de dimension

Transformez des données brutes en caractéristiques plus adaptées au Machine Learning. Explorez et créez de nouvelles caractéristiques itérativement, et sélectionnez celles qui optimisent vos performances.

Extraction de caractéristiques

Réaliser l'extraction de caractéristiques à partir de données en utilisant des techniques d'apprentissage non supervisé telles que le filtrage de données creuses (sparse) et l'analyse en composantes indépendantes (ICA) avec reconstruction. Vous pouvez aussi utiliser des techniques spécialisées pour extraire des caractéristiques à partir d'images, de signaux, de texte et de données numériques. Générez automatiquement de nouvelles caractéristiques à partir de données tabulaires pour la classification et la régression.

Les signaux des accéléromètres et des gyroscopes provenant d'appareils mobiles sont utilisés pour classifier votre activité actuelle (debout, marchant, assis, etc.).

Extraction de caractéristiques à partir de signaux transmis par des appareils mobiles. 

Sélection de variables pertinentes

Identifiez automatiquement le sous-ensemble des variables qui propose les meilleures capacités de prédiction pour la modélisation de données. Les méthodes de sélection de variables comprennent la régression stepwise, la sélection séquentielle, la régularisation ainsi que des méthodes ensemblistes.

L'analyse NCA évalue l'importance de chaque caractéristique pour la prédiction. Vous pouvez supprimer les caractéristiques de faible importance.

L'analyse NCA permet de sélectionner les variables qui préservent au mieux la précision du modèle.

Transformation de variables et réduction de dimension

Réduisez la dimension de vos données en transformant les variables (non catégorielles) existantes en de nouvelles variables prédictives dans lesquelles les variables les moins pertinentes peuvent être ignorées. Les méthodes de transformation comprennent l'analyse en composantes principales (ACP), l’analyse factorielle et la factorisation par matrices non négatives (Non-negative Matrix Factorization ou « NMF »).

La longueur des vecteurs, qui représente la contribution de chaque variable aux composantes principales, traduit leur importance. Dans cet exemple, il s'agit de neuf variables socio-économiques de la qualité de vie aux États-Unis.

L'ACP peut projeter orthogonalement des vecteurs de grande dimension sur un système de coordonnées de moindre dimension tout en préservant le maximum d'information.

Machine Learning

Créez des modèles de classification et de régression à l'aide d'applications interactives ou de Machine Learning automatisé (AutoML). Sélectionnez des variables, identifiez le meilleur modèle et ajustez les hyperparamètres, le tout automatiquement. Expliquez les comportements des modèles en appliquant des algorithmes d'interprétabilité.

Apprentissage, validation et optimisation de modèles prédictifs

Comparez plusieurs algorithmes de Machine Learning, notamment des réseaux de neurones peu profonds, sélectionnez des caractéristiques, ajustez les hyperparamètres et évaluez les performances de nombreux algorithmes de classification et de régression parmi les plus utilisés. Créez et optimisez automatiquement des modèles prédictifs avec des applications interactives et améliorez progressivement ces modèles avec des données en streaming. Réduisez le besoin de données labellisées en appliquant l'apprentissage semi-supervisé.

Interprétabilité des modèles

Améliorez l'interprétabilité du Machine Learning de type « boîte noire » en utilisant des modèles intrinsèquement interprétables comme le modèle additif généralisé (GAM) ou en appliquant des méthodes d'interprétabilité éprouvées, notamment PDP (Partial Dependence Plots), ICE (Individual Conditional Expectations), LIME (Local Interpretable Model-agnostic Explanations) et les valeurs de Shapley.

LIME construit des approximations simples de modèles complexes dans un espace local.

LIME construit des approximations simples de modèles complexes dans un espace local.

Machine Learning automatisé (AutoML)

Améliorez les performances des modèles en ajustant automatiquement les hyperparamètres, en générant et sélectionnant les caractéristiques et les modèles, et en traitant les déséquilibres dans les jeux de données avec des matrices de coût.

L'optimisation des hyperparamètres visualise l'espace de paramètres estimés et ses progrès en termes de minimisation de la fonction d'erreur

Optimisation efficace des hyperparamètres avec l'optimisation bayésienne.

Régression et ANOVA

Modélisez une variable de réponse continue comme une fonction d'un ou plusieurs prédicteurs en utilisant la régression linéaire ou non linéaire, des modèles à effets mixtes, des modèles linéaires généralisés et la régression non paramétrique. Attribuez une variance aux différentes sources à l'aide d'ANOVA.

Régression linéaire et non linéaire

Modélisez le comportement des systèmes complexes à plusieurs prédicteurs ou variables réponse en choisissant parmi de nombreux algorithmes de régression linéaire et non linéaire. Ajustez les modèles hiérarchiques ou multi-niveaux, les modèles linéaires et non linéaires, et les modèles linéaires généralisés à effets mixtes avec des effets aléatoires croisés et/ou imbriqués pour effectuer des analyses longitudinales ou de panels, des mesures répétées et des modélisations de croissance.

L'application Regression Learner vous permet d'évaluer diverses méthodes de régression sans écrire de code.

Ajustez des modèles de manière interactive avec l'application Regression Learner.

Régression non paramétrique

Générez un ajustement précis, sans spécifier de modèle décrivant la relation entre les prédicteurs et la réponse, en utilisant des machines à vecteurs de support (SVM), des forêts aléatoires, des réseaux de neurones peu profonds, des processus et des noyaux gaussiens.

Modélisez les écarts attendus avec la régression quantile, pour ainsi identifier les valeurs aberrantes.

 Identifiez les valeurs aberrantes ou extrêmes à l'aide de la régression quantile.

Analyse de la variance (ANOVA)

Attribuez la variance d’un échantillon à différentes sources et déterminez si la variation survient dans ou entre les différents groupes de population (variance inter ou intra). Utilisez des ANOVA à un facteur, deux facteurs, N facteurs, multivariées ou non paramétriques ainsi que des analyses de covariance (ANOCOVA) et des analyses de variance à mesures répétées (RANOVA).

L'outil de comparaisons multiples vous permet de tester plusieurs groupes de manière interactive avec l'ANOVA à N facteurs.

Testez les groupes avec l'ANOVA.

Lois de probabilité et tests d'hypothèse

Ajustez les distributions aux données. Analysez si les différences d’échantillon à échantillon sont significatives ou si elles sont cohérentes avec la variation de données. Générez des nombres aléatoires à partir de différentes distributions.

Découvrez si les différentes distributions sont correctement ajustées de manière interactive.

Ajustez des lois de probabilité à l'aide de l'application Distribution Fitter.

Génération de nombres aléatoires

Générez des séries numériques pseudo-aléatoires et quasi-aléatoires à partir d'une loi de probabilité ajustée ou construite.

Faites votre choix parmi de nombreuses distributions de probabilités, donnez-lui des paramètres clés et exportez les nombres aléatoires générés.

Générez des nombres aléatoires de manière interactive.

Tests d’hypothèse

Effectuez des tests t, des tests de distribution (Chi², Jarque-Bera, Lilliefors et Kolmogorov-Smirnov) et des tests non paramétriques pour un échantillon, des échantillons appariés ou des échantillons indépendants. Testez l'autocorrélation et le caractère aléatoire, et comparez les distributions (test de Kolmogorov-Smirnov à deux échantillons).

Visualisation de la probabilité de rejeter l'hypothèse nulle par rapport à l'hypothèse alternative.

Région de rejet dans un test t unilatéral.

Statistiques industrielles

Analysez statistiquement les effets et les tendances de vos données. Appliquez des techniques de statistiques industrielles telles que les plans d'expériences et le contrôle des processus statistiques.

Plan d’expériences (DOE)

Définissez, analysez et visualisez un plan d'expériences personnalisé. Créez et testez des plans pratiques relatifs à la manière de manipuler les données d’entrées en tandem pour générer des informations par rapport à leurs effets sur les données de sorties.

Découvrez où la méthode Box-Behnken suggère d'échantillonner vos trois variables afin d'obtenir une représentation correcte de l'espace objet.

Appliquez un plan de Box-Behnken pour générer des surfaces de réponse d'ordres plus élevés.

Contrôle des processus statistiques (SPC)

Surveillez et améliorez des produits ou des processus en évaluant la variabilité du processus. Créez des diagrammes de contrôle, estimez la capacité du processus et effectuez des études de répétabilité et de reproductibilité.

Le diagramme de contrôle représente visuellement le moment où une mesure sort des limites de contrôle d'un processus.

Surveillance de processus de fabrication à l'aide de diagrammes de contrôle.

Analyse de fiabilité et de survie

Visualisez et analysez les données de probabilité d'une panne, avec ou sans censure, en exécutant des modèles de risques proportionnels de la régression de Cox, et ajustez les distributions. Calculez les risques empiriques, la survie, des fonctions de distribution cumulée et des estimations de densité de noyau.

Visualisez où les données réelles ne couvrent pas la plage des temps de survie.

Données de défaillance en tant qu'exemple de valeurs « censurées ».

Big data, parallélisation et Cloud Computing

Utilisez des techniques statistiques et de Machine Learning avec les données massives ou hors mémoire (out-of-memory). Accélérez les calculs statistiques et l'apprentissage de modèles de Machine Learning en les parallélisant sur des instances de clusters et de cloud.

Analyser les big data avec des tall arrays

Utilisez les tall arrays et des tables avec de nombreux algorithmes de classification, de régression et de clustering pour entraîner vos modèles sur des jeux de données qui ne peuvent tenir en mémoire sans modifier votre code.

Accélérez les calculs avec Parallel Computing Toolbox ou MATLAB Parallel Server.

Accélérez les calculs avec Parallel Computing Toolbox ou MATLAB Parallel Server.

Cloud et calcul distribué

Utilisez des instances de cloud pour accélérer les calculs statistiques et de Machine Learning. Exécutez le workflow complet de Machine Learning dans MATLAB Online™.

Les architectures de référence, MATLAB Parallel Server et NVIDIA GPU Cloud vous permettent d'exécuter des calculs statistiques et de Machine Learning  sur des instances de cloud.

Effectuez des calculs sur les instances de cloud Amazon ou Azure.

Déploiement, génération de code et intégration dans Simulink

Déployez vos modèles ou vos fonctions statistiques et de Machine Learning sur des systèmes embarqués, accélérez des calculs informatiques complexes à l'aide de code C, et intégrez-les aux systèmes de l'entreprise et aux modèles Simulink.

Génération de code

Générez du code C ou C++ portable et lisible pour l'inférence des algorithmes de classification et de régression, les statistiques descriptives et les lois de probabilité avec MATLAB Coder™. Générez le code C/C++ des algorithmes de prédiction avec une précision réduite à l'aide de Fixed Point Designer™, et mettez à jour les paramètres des modèles déployés sans regénérer le code de la prédiction.

Générez du code C ou compilez du code MATLAB pour le déploiement sur du hardware embarqué et pour l'intégration aux systèmes d'entreprise.

Deux chemins pour le déploiement : générer du code C ou compiler du code MATLAB.

Intégration avec Simulink

Intégrez des modèles de Machine Learning avec des modèles Simulink pour le déploiement sur du hardware embarqué ou à des fins de simulation, de vérification et de validation de systèmes.

Intégrer avec des applications et des systèmes d'entreprise

Déployez vos modèles statistiques et de Machine Learning en tant qu’applications autonomes, MapReduce ou Spark™, ou bien en tant qu'applications web, ou encore en tant que add-ins Microsoft® Excel® avec MATLAB Compiler™. Créez des bibliothèques partagées C/C++, des Microsoft .NET assemblies, des classes Java® et des packages Python® avec MATLAB Compiler SDK™.

Avec MATLAB Compiler, vous pouvez intégrer vos modèles de Machine Learning aux systèmes d'entreprise et à d'autres applications.

Utilisez MATLAB Compiler pour intégrer un modèle de classification de la qualité de l'air.

Code generation and model update workflow

Code generation and model update workflow

Machine Learning Onramp

An interactive introduction to practical machine learning methods for classification problems.