Big Data mit MATLAB

Big Data mit MATLAB

Untersuchen, Analysieren und Entwickeln von prädiktiven Big-Data-Modellen

MATLAB vereinfacht die Arbeit mit Big Data, indem es auf den vorhandenen Big-Data-Speicher zugreift, sich in diesen integriert und sich entsprechend der verfügbaren Ressourcen an die Anforderungen der Datenverarbeitung anpasst.

MATLAB bietet folgende Möglichkeiten:

  • Zugriff auf Big Data über verschiedene Speicher wie z. B. klassische Dateisysteme, cloudbasierte Speicher (AWS® S3, Azure® Blob), SQL- und NoSQL-Datenbanken und Datenplattformen
  • Bereinigen, Analysieren und Entwickeln von Machine-Learning-Modellen anhand kleinerer Stichprobendaten
  • Skalierung und Anwendung desselben Codes auf Big Data, ohne dafür bestehende Algorithmen neu zu schreiben
  • Nutzung der auf die jeweiligen Anforderungen zugeschnittenen Rechenleistung – von Ihrem lokalen Rechner, klassischen HPC-Clustern, Spark™-Clustern und Cloud-Datenplattformen

„Das High-Performance-Computing mit MATLAB ermöglicht uns die Verarbeitung von bislang unanalysierten großen Datenmengen. Wir übertragen das, was wir in Erfahrung bringen, in ein Bild davon, wie sich menschliche Aktivitäten auf die Gesundheit von Ökosystemen auswirken, um verantwortungsvolle Entscheidungen über unser menschliches Handeln sowohl in den Weltmeeren als auch an Land zu treffen.“

Dr. Christopher Clark, Cornell University

Zugriff auf Daten

Mit MATLAB können Sie Daten aus großen Dateisammlungen, Datenbanken, Datenplattformen sowie Cloud-Speichersystemen lesen. Datastores in MATLAB ermöglichen es Ihnen, auf Daten zuzugreifen, die nicht in den Speicher eines einzelnen Computers passen oder auf mehrere Dateien verteilt sind. Diese Datastores unterstützen eine Vielzahl von Dateiformaten (CSV, Parquet, MDF usw.) und Speichersystemen (AWS S3, Azure Blob, HDFS, Datenbanken, Datenplattformen). Darüber hinaus lassen sich auch eigene Datastores für benutzerdefinierte Dateiformate erstellen.

Weitere Informationen

Die Abbildung zeigt, wie man auf Daten aus unterschiedlichen CSV-Dateien, Parquet-Dateien, Spreadsheets, Datenbanken, Databricks, Domino und Cloudera sowie Cloud-Speichern wie AWS, Azure und vielen weiteren zugreifen kann.
Liste der Funktionen zum Bereinigen, Aufbereiten, Untersuchen, Analysieren und Entwickeln von Machine-Learning-Modellen für Big Data.

Untersuchen, Bereinigen, Transformieren und Entwickeln von prädiktiven Modellen

Mit MATLAB können Sie Datenanalysen und Daten-Engineering für Big Data effizient durchführen. MATLAB unterstützt den Predicate Pushdown für Parquet-Dateien, sodass man große Datenvolumina direkt an der Quelle filtern kann. Nach dem Lesen können Sie dann Daten aus verschiedenen Datastores für die Vorverarbeitung und das Daten-Engineering umwandeln und zusammenführen.

Die in MATLAB verwendeten Tall-Arrays nutzen ein Lazy Evaluation Framework, mit dem Sie im Arbeitsspeicher befindlichen Tabellen- und Timetable-basierten Code auf Big Data ausführen können, ohne ihn neu schreiben zu müssen. Tall-Arrays unterstützen Hunderte von Funktionen zur Datenmanipulation sowie mathematische, statistische und Machine-Learning-Funktionen, die Sie für einfache statistische Analysen oder die Entwicklung von prädiktiven Modellen im Zusammenhang mit Big Data nutzen können.

Integration und Ausführung von Big Data in Ihrer IT-Infrastruktur

MATLAB unterstützt Sie bei der effizienten Verarbeitung von Big Data, indem es in Ihre bestehende Infrastruktur integriert wird. Sie können Ihren MATLAB Programmcode skalieren und sowohl interaktiv mithilfe der Parallelverarbeitung als auch im bereitgestellten Produktionsmodus ausführen. Die Analytikbereitstellung in Streaming- und Batch-Anwendungen ist ohne Lizenzgebühren möglich. Außerdem können Sie Ihren MATLAB Programmcode und Ihre Modelle mit Big Data auf verschiedenen Cloud-Datenplattformen wie Databricks, Domino Data Lab und Google® BigQuery ausführen.

Die Illustration zeigt eine Person, die MATLAB Programmcode auf Databricks, Domino, AWS, Azure und anderen Big-Data-Systemen ausführt.

Produkte

Erfahren Sie mehr über die Produkte, die bei Deep Learning für Big Data verwendet werden.