Statistics and Machine Learning Toolbox

Analyse und Modellierung von Daten mithilfe von Statistik und Machine Learning

 

Die Statistics and Machine Learning Toolbox™ bietet Funktionen und Apps zur Beschreibung, Analyse und Modellierung von Daten. Sie können deskriptive Statistiken und Diagramme zur explorativen Datenanalyse verwenden, Wahrscheinlichkeitsverteilungen an Daten anpassen, Zufallszahlen für Monte-Carlo-Simulationen erzeugen und Hypothesentests durchführen. Mit Regressions- und Klassifikationsalgorithmen können Sie Rückschlüsse aus Daten ziehen und Prognosemodelle erstellen.

Für die Analyse multidimensionaler Daten ermöglicht die Statistics and Machine Learning Toolbox die Identifikation von Schlüsselvariablen oder Merkmalen, die Einfluss auf Ihr Modell haben, mit Merkmalsauswahl, schrittweiser Regression, Hauptkomponentenanalyse (Principal Component Analysis, PCA), Regularisierung und anderen Methoden zur Verringerung der Dimensionalität.

Die Toolbox bietet Algorithmen für überwachtes und unüberwachtes Machine Learning, wie Support Vector Machines (SVMs), Entscheidungsbäume mit Boosting und Bagging, k-Nearest-Neighbor, k-Means, k-Medoids, hierarchisches Clustering, Gauß‘sche Mischverteilungsmodelle und Hidden Markov Modelle. Viele der Mechanismen für Statistik und Machine Learning können für Berechnungen an Datensätzen eingesetzt werden, die zu groß sind, um in den Arbeitsspeicher zu passen.

Explorative Datenanalyse

Untersuchen Sie Daten visuell mithilfe interaktiver Grafiken und beschreibender Statistik. Erkennen Sie Muster und Merkmale mithilfe von Clustering.

Darstellungen

Stellen Sie Daten anhand von Wahrscheinlichkeitsdiagrammen, Boxplots, Histogrammen, Quantile-Quantile-Plots sowie erweiterten Plots für die multivariate Analyse dar, zu denen Dendrogramme, Biplots oder Andrews-Diagramme gehören.

Mit mehrdimensionalen Scatterplots lassen sich die Beziehungen zwischen den Variablen untersuchen.

Deskriptive Statistik

Verstehen und beschreiben Sie potenziell große Datenmengen in kurzer Zeit anhand von wenigen, hoch relevanten Zahlen.

Untersuchen Sie Daten anhand von gruppierten Mittelwerten und Abweichungen.

Anwendung von DBSCAN auf zwei konzentrische Gruppen

Merkmalsextraktion und Verringerung der Dimensionalität

Transformieren Sie Rohdaten in die für das Machine Learning am besten geeigneten Merkmale. Untersuchen und erstellen Sie iterativ neue Merkmale und wählen Sie diejenigen aus, die eine Optimierung der Leistung ermöglichen.

Merkmalsextraktion

Mit unüberwachten Lerntechniken, wie etwa dem Sparse Filtering und RICA (Reconstruction Independent Component Analysis), extrahieren Sie Merkmale aus Daten. Auch stehen Ihnen spezielle Techniken zum Extrahieren von Merkmalen aus Bildern, Signalen, Text und numerischen Daten zur Verfügung.

Merkmalsextraktion aus Signalen von Mobilgeräten. 

Merkmalsauswahl

Identifizieren Sie automatisch die Teilmenge der Merkmale, die bei der Modellierung der Daten die beste Vorhersage liefert. Zur Merkmalsauswahl stehen die schrittweise Regression, die sequenzielle Merkmalsauswahl, die Regularisierung sowie Ensemble-Methoden zur Verfügung.

Die NCA begünstigt die Auswahl von Merkmalen, mit denen die Genauigkeit des Modells weitgehend erhalten bleibt.

Merkmalstransformation und Verringerung der Dimensionalität

Verringern Sie die Dimensionalität, indem Sie bestehende (nicht kategorische) Merkmale in neue Prädiktorvariablen umwandeln, wobei weniger aussagekräftige Merkmale ausgesondert werden können. Zu den Methoden der Merkmalstransformation gehören PCA, Faktoranalyse und die nichtnegative Faktorzerlegung.

Bei der PCA werden viele Variablen auf wenige orthogonale projiziert, die einen Großteil der Informationen beibehalten.

Machine Learning

Erstellen Sie prädiktive Klassifikations- und Regressionsmodelle anhand von interaktiven Anwendungen. Wählen Sie Merkmale automatisch aus und optimieren Sie Hyperparameter für die Feineinstellung von Modellen.

Trainieren, Validieren und Optimieren von Vorhersagemodellen

Vergleichen Sie verschiedene Machine-Learning-Algorithmen, wählen Sie Merkmale aus, passen Sie Hyperparameter an und werten Sie die Vorhersageleistung aus.

Klassifikation

Sie können eine kategorische abhängige Variable als eine Funktion eines oder mehrerer Prädiktoren modellieren. Schöpfen Sie aus den unterschiedlichsten parametrischen und nichtparametrischen Klassifikationsalgorithmen wie logistischer Regression, SVM, Entscheidungsbäumen mit Boosting und Bagging, naiver Bayes-Klassifikation, Diskriminanzanalyse und k-nearest neighbor.

Interaktives Trainieren von Klassifikatoren mit der Classification Learner-App

Automatisierte Modelloptimierung

Durch automatische Feinanpassung von Hyperparametern, die Auswahl von Merkmalen und die Anwendung von Kostenmatrices bei unsymmetrischen Datensätzen können Sie die Modellleistung verbessern.

Effiziente Optimierung von Hyperparametern durch Bayes‘sche Optimierung

Regression und ANOVA

Modellieren Sie kontinuierliche abhängige Variablen als Funktion eines oder mehrerer Prädiktoren anhand von linearer und nichtlinearer Regression, Mixed-Effects-Modellen, verallgemeinerten linearen Modellen und nichtparametrischer Regression. Nutzen Sie ANOVA für die Varianz-Zuweisung bei verschiedenen Quellen.

Lineare und nichtlineare Regression

Für die Modellierung des Verhaltens komplexer Systeme mit mehreren Prädiktoren oder abhängigen Variablen stehen Ihnen zahlreiche lineare und nichtlineare Regressionsalgorithmen zur Auswahl. Nutzen Sie das Fitten von mehrstufigen oder hierarchischen, linearen, nichtlinearen und generalisierten Mixed-Effects-Modellen mit eingebetteten und/oder crossed Random Effects für die Durchführung von Längsschnitt- oder Panelstudien und die Modellierung von wiederholten Werten oder die Wachstumsmodellierung.

Mit der Regression Learner-App führen Sie das Fitting von Regressionsmodellen interaktiv durch.

Nichtparametrische Regression

Erzeugen Sie präzise Fits, wenn kein explizites Modell, das die Beziehung zwischen Prädiktor und Antwort beschreibt, zur Verfügung steht, einschließlich SVMs, Random Forests, Gauß-Prozessen und Gauß‘schem Kernel.

 Ausreißer mithilfe der Quantilregression erkennen

Varianzanalyse (ANOVA)

Sie können Stichprobenvarianzen verschiedenen Quellen zuordnen und bestimmen, ob die Abweichung innerhalb oder zwischen verschiedenen Populationsgruppen entsteht. Nutzen Sie dazu die ein-, zwei- und mehrfaktorielle, multivariate und nichtparametrische ANOVA sowie die Kovarianzanalyse (ANOCOVA) und die Varianzanalyse mit Messwiederholungen (RANOVA).

Gruppen mit mehrfaktorieller ANOVA testen

Wahrscheinlichkeitsverteilungen und Hypothesentests

Verteilungen an Daten fitten Analysieren Sie, ob Unterschiede zwischen Stichproben signifikant sind oder einfach statistische Schwankungen darstellen. Erzeugen Sie Zufallszahlen aus verschiedenen Verteilungen.

Wahrscheinlichkeitsverteilungen

Sie können kontinuierliche und diskrete Verteilungen anpassen, statistische Diagramme zur Bewertung der Anpassung verwenden sowie Wahrscheinlichkeitsdichtefunktionen und kumulative Verteilungsfunktionen für mehr als 40 verschiedene Verteilungen berechnen.

Interaktive Anpassung von Verteilungen mit der Distribution Fitter-App

Zufallszahlengenerierung

Erzeugen Sie pseudo-zufällige und quasi-zufällige Zahlenreihen aus gefitteten oder konstruierten Wahrscheinlichkeitsverteilungen.

Zufallszahlen interaktiv generieren

Hypothesentests

Führen Sie t-Tests, Verteilungstests (Chi-Quadrat, Jarque-Bera, Lilliefors und Kolmogorov-Smirnov) sowie nichtparametrische Tests für eine Stichprobe, gepaarte Stichproben und zwei unabhängige Stichproben durch. Testen Sie die Selbstkorrektur und Zufälligkeit und vergleichen Sie Verteilungen (Kolmogorov-Smirnov mit zwei Stichproben).

Ablehnungsbereich in einem einseitigen t-Test

Industriestatistik

Führen Sie statistische Analysen von Auswirkungen und Datentrends durch. Sie können Techniken der Industriestatistik wie etwa eine benutzerdefinierte statistische Versuchsplanung und statistische Verfahrenskontrolle anwenden.

Statistische Versuchsplanung (DOE)

Definieren, analysieren und visualisieren Sie eine benutzerdefinierte statistische Versuchsplanung (DOE). Erstellen und testen Sie praktische Pläne, die vorgeben, wie Eingangsdaten kovariiert werden müssen, um Informationen über ihre Wirkung auf die Datenausgaben zu erhalten.

Anwendung eines Box-Behnken-Plans zum Generieren von Wirkungsflächen höherer Ordnung

Statistische Verfahrenskontrolle (SPC)

Sie können Produkte oder Prozesse durch Auswertung der Prozessvariabilität überwachen und verbessern. Erstellen Sie Qualitätsregelkarten, schätzen Sie die Prozessfähigkeiten und führen Sie Messwiederholbarkeits- und Reproduzierbarkeitsstudien durch.

Überwachung von Herstellungsverfahren mithilfe von Regelkarten

Zuverlässigkeits- und Überlebensanalyse

Visualisieren und analysieren Sie Ausfallraten mit und ohne zensierte Daten per Cox-Regression (proportionales Hazard-Modell) und passen Sie die Verteilungen an. Berechnen Sie die empirische Hazard-Rate, die Überlebensrate, kumulative Verteilungsfunktionen und Kernel-Dichte-Schätzungen.

Ausfallraten als Beispiel für zensierte Werte

Skalierung nach Big Data und der Cloud

Wenden Sie Techniken der Statistik und des Machine Learnings auf Out-of-Memory-Daten an. Beschleunigen Sie statistische Berechnungen und das Trainieren von Machine-Learning-Modellen in Clustern und Cloudinstanzen.

Big Data mit Tall Arrays analysieren

Verwenden Sie Tall Arrays und Tabellen mit zahlreichen Klassifikations-, Regressions- und Cluster-Algorithmen, um ohne jegliche Änderung Ihres Codes Modelle anhand von Datensätzen zu trainieren, die nicht in den Arbeitsspeicher passen.

Beschleunigen von Berechnungen mit der Parallel Computing Toolbox oder MATLAB Parallel Server™

Cloud und Distributed Computing

Beschleunigen Sie statistische und Machine-Learning-Berechnungen mithilfe von Cloudinstanzen. Sie können den gesamten Machine-Learning-Workflow in MATLAB Online™ abwickeln.

Durchführen von Berechnungen auf Amazon- oder Azure-Cloudinstanzen

Bereitstellung und Codegenerierung

Stellen Sie statistische und Machine-Learning-Anwendungen auf eingebetteten Systemen bereit, beschleunigen Sie rechenintensive Vorgänge mit C-Code und binden Sie Unternehmenssysteme ein.

Codegenerierung

Erzeugen Sie portierbaren und lesbaren C- oder C++ Code zum Ziehen von Rückschlüssen aus Klassifikations- und Regressionsalgorithmen, beschreibender Statistik und Wahrscheinlichkeitsverteilungen mithilfe von MATLAB-CoderTM. Beschleunigen Sie die Überprüfung und Validierung von HiFi-Simulationen unter Verwendung von Machine-Learning-Modellen durch MATLAB-Funktionsblöcke und Systemblöcke. 

Zwei Bereitstellungsmethoden: C-Code generieren oder MATLAB-Code kompilieren

Integration in Anwendungen und Unternehmenssysteme

Mit MATLAB Compiler™ können Sie statistische und Machine-Learning-Modelle als eigenständige, MapReduce- und Spark™-basierte Anwendungen, als Web-Apps und als Microsoft® Excel®-Add-Ins implementieren. Verwenden Sie das MATLAB Compiler SDK™, um gemeinsam genutzte C/C++ Bibliotheken, Microsoft.NET-Assemblies, Java®-Klassen und Python®-Pakete zu erstellen.

Einbinden eines Klassifikationsmodells für die Luftqualität mithilfe von MATLAB Compiler

Aktualisieren implementierter Modelle

Aktualisieren Sie die Parameter bereits implementierter Modelle, ohne den C/C++ Vorhersagecode neu generieren zu müssen.

Workflow der Codegenerierung und Modellaktualisierung

Neue Funktionen

Machine Learner-Apps

Optimieren von Hyperparametern in Classification Learner und Regression Learner und Angeben von Kosten der Fehlklassifikation in Classification Learner

Codegenerierung

Aktualisieren eines bereitgestellten Entscheidungsbaums oder linearen Modells ohne Code-Neugenerierung sowie Generieren von C/C++-Code für Wahrscheinlichkeitsverteilungsfunktionen (erfordert MATLAB-Coder)

Codegenerierung

Generieren von Festkomma-Code in C/C++ für Vorhersagen für ein SVM-Modell (erfordert MATLAB-Coder und Fixed-Point Designer)

Spektrales Clustering

Durchführen von spektralem Clustering mit spectralcluster

Rangzuweisung von Merkmalen

Rangzuweisung für numerische und kategorische Merkmale nach ihrer Bedeutung mit einem MRMR-Algorithmus (Minimum Redundancy Maximum Relevance) und Rangzuweisung für Merkmale für unbeaufsichtigtes Lernen unter Verwendung von Laplace-Bewertungen

Details zu diesen Merkmalen und den zugehörigen Funktionen finden Sie in den Versionshinweisen.

Kostenlose Testversion anfordern

30 Tage Ausprobieren zum Greifen nah.

Jetzt downloaden

Bereit zum Kauf?

Fordern Sie ein Angebot an und informieren Sie sich über verwandte Produkte.

Studieren Sie?

Fordern Sie die MATLAB und Simulink Student Software an.

Weitere Informationen