Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analyser et modéliser des données grâce aux statistiques et au Machine Learning

Statistics and Machine Learning Toolbox offre des fonctions et des applications pour décrire, analyser et modéliser des données. Vous pouvez utiliser des statistiques descriptives, des visualisations et le clustering pour l’analyse exploratoire des données, les ajustements de lois de probabilité, la génération de nombres aléatoires pour les simulations Monte-Carlo et pour réaliser des tests d’hypothèse. Les algorithmes de régression et de classification vous permettent de déduire des comportements à partir des données et de construire des modèles prédictifs soit de manière interactive, en utilisant les applications Classification Learner et Regression Learners, soit de manière programmatique, en utilisant AutoML.

Pour l’analyse de données multidimensionnelles et l'extraction de caractéristiques, la toolbox propose l’analyse en composantes principales (ACP), la régularisation, la réduction de la dimension et des méthodes de sélection de variables pertinentes qui vous permettent d’identifier les variables qui offrent les meilleures capacités de prédiction.

La toolbox comprend des algorithmes de Machine Learning non supervisés, semi-supervisés et supervisés, notamment les machines à vecteurs de support (SVM), le boosting d'arbres de décision, les réseaux de neurones peu profonds, les k-means et autres méthodes de clustering. Vous pouvez utiliser des techniques d'interprétabilité, comme des tracés de dépendance partielle, les valeurs de Shapley et la méthode de LIME, et générer automatiquement du code C/C++ pour un déploiement embarqué. Les blocs natifs de Simulink vous permettent d'utiliser des modèles prédictifs dans des simulations et avec l'approche Model-Based design. De nombreux algorithmes de la toolbox peuvent être appliqués à des jeux de données trop volumineux pour être stockés en mémoire.

Utilisez un scatter plot multidimensionnel pour explorer les relations entre les variables.

Statistiques descriptives et visualisation

Explorez les données en les représentant statistiquement avec les méthodes statistiques descriptives et des graphiques visuels et interactifs. Comprenez et décrivez rapidement vos jeux de données potentiellement volumineux en utilisant les statistiques descriptives, notamment les mesures de tendance centrale, de dispersion, de forme, la corrélation et la covariance.

Analyse de clusters avec MATLAB.

Analyse de clusters

Identifiez des motifs et des caractéristiques en appliquant les k-means, le clustering hiérarchique, DBSCAN et d'autres méthodes de clustering, et divisez les données en groupes ou clusters. Déterminez le nombre optimal de clusters pour les données en utilisant différents critères d'évaluation. Détectez les anomalies pour identifier les valeurs aberrantes et les nouveautés.

Testez les groupes avec l'ANOVA multifactorielle.

ANOVA

Attribuez la variance d’un échantillon à différentes sources et déterminez si la variation survient dans ou entre les différents groupes de population (variance inter ou intra). Utilisez des ANOVA à un facteur, deux facteurs, N facteurs, multivariées ou non paramétriques ainsi que des analyses de covariance (ANOCOVA) et des analyses de variance à mesures répétées (RANOVA).

Ajustez des modèles de manière interactive avec l'application Regression Learner.

Régression

Utilisez l'application Regression Learner ou entraînez et évaluez par programme des modèles tels que la régression linéaire, les processus gaussiens, les machines à vecteurs de support, les réseaux de neurones et les ensembles.

Ajustez les modèles de classification de manière interactive avec l'application Classification Learner.

Classification

Utilisez l'application Classification Learner ou entraînez et validez par programme des modèles tels que la régression logistique, les machines à vecteurs de support, le boosting d'arbres de décision et les réseaux de neurones peu profonds.

L'analyse NCA permet de sélectionner les variables qui préservent au mieux la précision du modèle.

Réduction de la dimensionnalité et extraction de caractéristiques

Réalisez l'extraction de caractéristiques à partir d'images, de signaux, de texte et de données numériques. Découvrez et créez de nouvelles caractéristiques itérativement, et sélectionnez celles qui optimisent vos performances. Réduisez la dimensionnalité en transformant des caractéristiques en de nouvelles variables de prédiction et abandonnez les caractéristiques moins descriptives après transformation, ou en appliquant une sélection de caractéristiques automatisée.

Graphique des lois de probabilité

Lois de probabilité

Ajustez des lois continues ou discrètes, utilisez des graphiques statistiques pour évaluer la qualité de l’ajustement, et calculez les fonctions de densité de probabilité et les fonctions de distribution cumulative de plus de 40 distributions.

Région de rejet dans un test t unilatéral.

Tests d’hypothèses

Tirez des conclusions sur une population à partir de données statistiques provenant d'un échantillon. Effectuez des tests t, des tests de distribution et des tests non paramétriques pour un échantillon, des échantillons appariés ou des échantillons indépendants. Testez l'autocorrélation et le caractère aléatoire, et comparez les distributions.

Données de défaillance en tant qu'exemple de valeurs « censurées ».

Statistiques industrielles

Analysez statistiquement les effets et les tendances de vos données. Concevez des expériences afin de créer et tester des plans pratiques sur la manière de manipuler les données d’entrées pour générer des informations concernant leurs effets sur les données de sorties. Visualisez et analysez les données de temps avant défaillance, avec ou sans censure, et contrôlez et évaluez la qualité des processus industriels.

Les tall arrays MATLAB en action

Analyse de Big Data avec des tall arrays

Utilisez les tall arrays et les tables avec de nombreux algorithmes de classification, de régression et de clustering pour entraîner vos modèles sur des jeux de données qui ne peuvent tenir en mémoire sans modifier votre code.

Deux possibilités pour le déploiement : générer du code C ou compiler du code MATLAB.

Génération de code

Générez du code C ou C++ portable et lisible pour l'inférence des modèles de classification et de régression, les statistiques descriptives et les lois de probabilité. Générez le code C ou C++ des algorithmes de prédiction avec une précision réduite, et mettez à jour les paramètres des modèles déployés sans regénérer le code de la prédiction.

Demander une version d’essai gratuite

Profitez de 30 jours pour tester.


Prêt à acheter ?

Découvrez les tarifs et les produits.

Vous êtes étudiant ?

Votre établissement propose peut-être déjà un accès à MATLAB, Simulink et d'autres produits complémentaires via la licence Campus-Wide.