Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analyse und Modellierung von Daten mithilfe von Statistik und Machine Learning

Jetzt beginnen:

Explorative Datenanalyse

Untersuchung von Daten mithilfe statistischer Diagramme mit interaktiver Grafik und deskriptiven Statistiken. Identifizierung von Mustern und Merkmalen mit Clustering.

Visualisierungen

Visuelle Untersuchung von Daten mit Wahrscheinlichkeitsdiagrammen, Boxplot-Diagrammen, Histogrammen und Quantil-Quantil-Diagrammen sowie erweiterten Diagrammen für die multivariate Analyse wie Dendrogrammen, Biplot- und Andrews-Diagrammen.

Mit einer mehrdimensionalen Punktwolke lassen sich die Beziehungen zwischen den Variablen untersuchen.

Deskriptive Statistik

Potenziell umfangreiche Datensätze mit wenigen, hoch relevanten Zahlen werden schnell verstanden und beschrieben.

Sie können Ihre Daten mithilfe gruppierter Mittelwerte und Varianzen untersuchen.

Clusteranalyse

Erkennen Sie die Muster durch die Gruppierung der Daten mit k-Mittelwerten, k-Medoiden, DBSCAN, hierarchischem und spektralem Clustering sowie mit Gaußschen Mischverteilungs- und Hidden-Markov-Modellen.

Anwendung von DBSCAN auf zwei konzentrische Gruppen.

Merkmalsextraktion und Dimensionalitätsreduktion

Umwandlung von Rohdaten in Merkmale, die für Machine Learning geeignet sind. Iterative Untersuchung und Entwicklung neuer Merkmale sowie Auswahl der Merkmale, mit denen die Leistung optimiert werden kann.

Merkmalsextraktion

Merkmalsextraktion aus Daten mithilfe nicht überwachter Lerntechniken wie Grobfilterung und Rekonstruktions-ICA. Verwendung spezialisierter Verfahren zur Extraktion von Merkmalen aus Bildern, Signalen, Text und numerischen Daten. Automatische Generierung neuer Merkmale aus tabellarischen Daten für Klassifizierung und Regression.

Merkmalsextraktion aus Signalen, die von Mobilgeräten bereitgestellt werden. 

Merkmalsauswahl

Die Teilmenge der Merkmale, die die beste Prognosefähigkeit bei der Datenmodellierung liefert, wird automatisch identifiziert. Die Methoden zur Merkmalsauswahl umfassen die schrittweise Regression, sequentielle Merkmalsauswahl, Regularisierung und Ensemble-Methoden.

Die NCA unterstützt die Auswahl der Merkmale, mit denen die Genauigkeit des Modells weitgehend erhalten bleibt.

Merkmalsumwandlung und Dimensionalitätsreduktion

Reduzieren Sie die Dimensionalität durch die Umwandlung der vorhandenen (nicht kategorischen) Merkmale in neue Prädiktorvariablen, wobei weniger deskriptive Merkmale ausgelassen werden können. Die Methoden für die Merkmalsumwandlung umfassen PCA, Faktoranalyse und nicht-negative Matrix-Faktorisierung.

Mit PCA können zwei hochdimensionale Vektoren auf ein orthogonales Koordinatensystem gelegt werden, wobei ihre Informationen weitgehend erhalten bleiben.

Machine Learning

Entwicklung prädiktiver Klasseneinteilungs- und Regressionsmodelle mithilfe interaktiver Apps oder automatisiertem Machine Learning (AutoML). Automatische Auswahl der Merkmale, Identifizierung des besten Modells und Feinabstimmung der Hyperparameter. Erklärung des Modellverhaltens mit interpretierbaren Algorithmen.

Trainieren, Validieren und Feinabstimmen von Vorhersagemodellen

Vergleich von verschiedenen Algorithmen des Machine Learning — einschließlich flacher neuronaler Netze, Merkmalsauswahl, Einstellung der Hyperparameter und Evaluierung der Leistung vieler populärer Klassifikations- und Regressionsalgorithmen. Entwicklung und automatische Optimierung von Vorhersagemodellen mit interaktiven Apps und inkrementelle Verbesserung der Modelle mit Streaming-Daten. Reduzierung des Bedarfs an gelabelten Daten durch die Anwendung des teilüberwachten Lernens.

Interpretierbarkeit des Modells

Verbesserung der Interpretierbarkeit von Black-Box Machine Learning mithilfe von inhärent interpretierbaren Modellen wie generativen additiven Modellen (GAM) oder durch die Anwendung etablierter Interpretierbarkeitsmethoden wie partieller Abhängigkeitsplots, individueller bedingter Erwartungen (ICE), lokal interpretierbarer modellagnostischer Erklärungen (LIME) und Shapley-Werten.

LIME erstellt einfache Näherungen komplexer Modelle in einem lokalen Gebiet.

Automatisiertes Machine Learning (AutoML)

Steigern Sie die Leistung des Modells durch die automatische Abstimmung von Hyperparametern, die Generierung und Auswahl von Merkmalen und Modellen sowie die Bearbeitung von Datensatz-Ungleichgewichten mit Kostenmatrizen.

Effiziente Optimierung der Hyperparameter mit der Bayes‘schen Optimierung.

Regression und ANOVA

Sie können eine kontinuierliche Reaktionsvariable als eine Funktion eines oder mehrerer Prädiktoren mithilfe linearer und nichtlinearer Regression oder mithilfe von Modellen mit gemischten Effekten, verallgemeinerten linearen Modellen und nicht-parametrischer Regression modellieren. Zuordnung von Varianzen zu verschiedenen Quellen mit ANOVA.

Lineare und nichtlineare Regression

Modellverhalten komplexer Systeme mit mehreren Prädiktoren oder Reaktionsvariablen, ausgewählt aus vielen linearen und nichtlinearen Regressionsalgorithmen. Passen Sie mehrstufige oder hierarchische, lineare, nichtlineare und verallgemeinerte lineare Modelle mit gemischten Effekten mit verschachtelten und/oder gekreuzten Zufallseffekten zur Durchführung von Längsschnitt- oder Paneldatenanalysen, wiederholten Messungen und Wachstumsmodellierung an.

Interaktive Anpassung der Regressionsmodell mit der Regression Learner App.

Nichtparametrische Regression

Erzeugen Sie eine genaue Anpassung ohne Spezifizierung eines Modells, das die Beziehung zwischen Prädiktoren und Reaktion mithilfe von SVMs, Random Forests, flachen neuronalen Netzwerken, gaußschen Prozessen und gaußschen Kernen beschreibt.

 Identifizierung von Ausreißern mit quantiler Regression.

Varianzanalyse (ANOVA)

Die Mustervarianz kann verschiedenen Quellen zugeordnet und Sie können bestimmen, ob die Variation innerhalb oder unter verschiedenen Bevölkerungsgruppen entsteht. Einsatz von Einweg-, Zweiweg-, Mehrweg-, multivarianter und nichtparametrischer ANOVA sowie Analyse der Kovarianz (ANOCOVA) und wiederholte Analyse der Varianzmessungen (RANOVA).

Testgruppen mithilfe Mehrweg-ANOVA.

Wahrscheinlichkeitsverteilungen und Hypothesentests

Anpassung der Verteilungen an die Daten. Mit einer Analyse stellen Sie fest, ob die Muster-zu-Muster-Differenzen signifikant sind oder mit der zufälligen Datenvariation übereinstimmen. Sie können Zufallszahlen aus verschiedenen Verteilungen erzeugen.

Wahrscheinlichkeitsverteilungen

Anpassung kontinuierlicher und diskreter Verteilungen, Nutzung von Statistikblöcken zur Evaluierung der Anpassungsgüte, zur Berechnung der Wahrscheinlichkeitsdichtefunktionen und der kumulativen Verteilungsfunktionen für mehr als 40 verschiedene Verteilungen.

Passen Sie die Verteilungen mithilfe der Distribution Fitter App interaktiv an.

Erzeugung von Zufallszahlen

Pseudo- oder quasi-zufällige Zahlenströme lassen sich aus einer angepassten oder konstruierten Wahrscheinlichkeitsverteilung erzeugen.

Erzeugen Sie Zufallszahlen interaktiv.

Hypothesentests

t-Tests, Verteilungstest (Chiquadrat, Jarque-Bera, Lilliefors und Kolmogorov-Smirnov) und nichtparametrische Tests für einzelne, gepaarte oder selbständige Muster ausführen. Testen Sie Autokorrektur und Zufälligkeit und vergleichen Sie die Verteilungen (Zwei-Muster Kolmogorov-Smirnov).

Ablehnungsgebiet im einseitigen t-Test.

Industrielle Statistik

Auswirkungen und Datentrends können statistisch analysiert werden. Industrielle Statistikverfahren wie benutzerdefinierte Versuchsplanung und statistische Prozesskontrolle können angewendet werden.

Versuchsplanung

Definieren, analysieren und visualisieren Sie eine benutzerdefinierte Versuchsplanung. Erstellen und testen Sie praktische Pläne zur Manipulation der Dateneingaben in Reihen, mit denen sie Informationen über ihre Auswirkungen auf Datenausgaben generieren können.

Wenden Sie einen Box-Behnken-Aufbau zur Generierung von Reaktionsoberflächen einer höheren Ordnung an.

Statistische Prozess-Kontrolle (SPC)

Überwachen und verbessern Sie Produkte oder Prozesse durch die Evaluierung der Prozessvariabilität. Sie können Kontrolldiagramme erstellen, die Prozesskapazität schätzen und Untersuchungen zur Wiederholbarkeit und Reproduzierbarkeit der Messung durchführen.

Die Überwachung von Herstellungsprozessen mit Kontrolldiagrammen.

Zuverlässigkeits- und Ereigniszeitanalyse

Visualisierung und Analyse der Zeit-bis-zum-Ausfall-Daten mit und ohne Zensur nach Durchführung einer Proportional-Hazard-Regression nach Cox und Anpassungsverteilungen. Berechnen Sie die empirische Gefahr, Ereigniszeit und die kumulativen Verteilungsfunktionen sowie Kerndichteschätzungen.

Ausfalldaten als Beispiel für „zensierte“ Werte.

Big Data, Parallelisierung und Cloud Computing

Sie können Statistik- und Machine-Learning-Verfahren für Datenvolumen anwenden, die die Speicherkapazität überschreiten. Beschleunigen Sie statistische Berechnungen und das Training des Machine-Learning-Modells mit der Parallelisierung auf Clustern und Cloud-Instanzen.

Analyse von Big Data mit Tall Array

Verwenden Sie Tall Arrays und Tabellen mit zahlreichen Klassifikations-, Regressions- und Cluster-Algorithmen, um Modelle anhand von Datensätzen zu trainieren, die ohne Anpassung des Codes nicht in den Arbeitsspeicher passen.

Beschleunigung der Berechnungen mit der Parallel Computing Toolbox oder MATLAB Parallel Server.

Cloud und Distributed Computing

Einsatz von Cloud-Instanzen zur Beschleunigung von statistischen und Machine-Learning-Berechnungen. Durchführung des vollständigen Machine-Learning-Workflows in MATLAB Online™.

Führen Sie Ihre Berechnungen auf Cloud-Instanzen von Amazon oder Azure durch.

Einsatz, Codegenerierung und die Integration von Simulink

Nutzen Sie Statistiken und Machine Learning auf integrierten Systemen, beschleunigen Sie die rechenintensive Berechnungen mithilfe von C Code und integrieren Sie sie in Unternehmenssysteme und Simulink-Modelle.

Codegenerierung

Erzeugung portablen und lesbaren C oder C++ Codes für die Klasseneinteilungsfolgerung und Regressionsalgorithmen, deskriptive Statistiken und Wahrscheinlichkeitsverteilungen mithilfe von MATLAB Coder™. Erzeugung von C/C++ Prognose-Codes mit reduzierter Präzision mit dem Fixed Point Designer™ und Aktualisierung der Parameter eingesetzter Modelle ohne erneute Erzeugung des Prognose-Codes.

Zwei mögliche Einsatzarten: Erzeugung von C Code oder Kompilierung von MATLAB Programmcode.

Integration in Simulink

Integration von Machine-Learning-Modellen in Simulink-Modelle für den Einsatz auf integrierter Hardware oder für die Systemsimulation, -verifizierung und -validierung.

Integration in Anwendungen und Unternehmenssysteme

Einsatz von statistischen und Machine-Learning-Modellen als Standalone-, MapReduce- oder Spark™-Anwendungen, als Web-Apps oder als Microsoft® Excel® Add-Ins mit MATLAB Compiler™. Entwicklung gemeinsamer C/C++ Bibliotheken, Microsoft .NET-Assemblies, Java®-Klassen und Python®-Paketen mit MATLAB Compiler SDK™.

Verwenden Sie den MATLAB Compiler zur Integration eines Klasseneinteilungsmodells für die Luftqualität.

Code generation and model update workflow

Machine Learning Onramp

An interactive introduction to practical machine learning methods for classification problems.