MATLAB vereinfacht die Arbeit mit Big Data, indem es auf den vorhandenen Big-Data-Speicher zugreift, sich in diesen integriert und sich entsprechend der verfügbaren Ressourcen an die Anforderungen der Datenverarbeitung anpasst.
MATLAB bietet folgende Möglichkeiten:
- Zugriff auf Big Data über verschiedene Speicher wie z. B. klassische Dateisysteme, cloudbasierte Speicher (AWS® S3, Azure® Blob), SQL- und NoSQL-Datenbanken und Datenplattformen
- Bereinigen, Analysieren und Entwickeln von Machine-Learning-Modellen anhand kleinerer Stichprobendaten
- Skalierung und Anwendung desselben Codes auf Big Data, ohne dafür bestehende Algorithmen neu zu schreiben
- Nutzung der auf die jeweiligen Anforderungen zugeschnittenen Rechenleistung – von Ihrem lokalen Rechner, klassischen HPC-Clustern, Spark™-Clustern und Cloud-Datenplattformen
Big Data mit MATLAB und Simulink
Zugriff auf Daten
Mit MATLAB können Sie Daten aus großen Dateisammlungen, Datenbanken, Datenplattformen sowie Cloud-Speichersystemen lesen. Datastores in MATLAB ermöglichen es Ihnen, auf Daten zuzugreifen, die nicht in den Speicher eines einzelnen Computers passen oder auf mehrere Dateien verteilt sind. Diese Datastores unterstützen eine Vielzahl von Dateiformaten (CSV, Parquet, MDF usw.) und Speichersystemen (AWS S3, Azure Blob, HDFS, Datenbanken, Datenplattformen). Darüber hinaus lassen sich auch eigene Datastores für benutzerdefinierte Dateiformate erstellen.
Weitere Informationen
- Bilder
- Parquet- und Avro-Dateien
- Tabellentext, CSV und Spreadsheets
- MDF-Dateien
- Datenbanken (SQL, NoSQL)
- Databricks, Domino Data Lab und Cloudera®
Untersuchen, Bereinigen, Transformieren und Entwickeln von prädiktiven Modellen
Mit MATLAB können Sie Datenanalysen und Daten-Engineering für Big Data effizient durchführen. MATLAB unterstützt den Predicate Pushdown für Parquet-Dateien, sodass man große Datenvolumina direkt an der Quelle filtern kann. Nach dem Lesen können Sie dann Daten aus verschiedenen Datastores für die Vorverarbeitung und das Daten-Engineering umwandeln und zusammenführen.
Die in MATLAB verwendeten Tall-Arrays nutzen ein Lazy Evaluation Framework, mit dem Sie im Arbeitsspeicher befindlichen Tabellen- und Timetable-basierten Code auf Big Data ausführen können, ohne ihn neu schreiben zu müssen. Tall-Arrays unterstützen Hunderte von Funktionen zur Datenmanipulation sowie mathematische, statistische und Machine-Learning-Funktionen, die Sie für einfache statistische Analysen oder die Entwicklung von prädiktiven Modellen im Zusammenhang mit Big Data nutzen können.
Weitere Informationen
Integration und Ausführung von Big Data in Ihrer IT-Infrastruktur
MATLAB unterstützt Sie bei der effizienten Verarbeitung von Big Data, indem es in Ihre bestehende Infrastruktur integriert wird. Sie können Ihren MATLAB Programmcode skalieren und sowohl interaktiv mithilfe der Parallelverarbeitung als auch im bereitgestellten Produktionsmodus ausführen. Die Analytikbereitstellung in Streaming- und Batch-Anwendungen ist ohne Lizenzgebühren möglich. Außerdem können Sie Ihren MATLAB Programmcode und Ihre Modelle mit Big Data auf verschiedenen Cloud-Datenplattformen wie Databricks, Domino Data Lab und Google® BigQuery ausführen.