MATLAB simplifie le travail avec les Big Data en accédant et en s'intégrant à votre système de stockage de Big Data existant, et s'adapte à vos besoins de traitement de données en fonction des ressources disponibles.
Avec MATLAB, vous pouvez :
- Accéder aux Big Data à partir de différents systèmes de stockage, tels que les systèmes de fichiers traditionnels, les stockages basés dans le cloud (AWS® S3, Azure® Blob), les bases de données SQL et NoSQL et les plateformes de données
- Nettoyer et analyser de petits échantillons de données, et les exploiter pour développer des modèles de Machine Learning
- Passer à l'échelle supérieure et appliquer votre code sur des Big Data sans avoir à réécrire vos algorithmes
- Utiliser une puissance de traitement adaptée à vos besoins, que ce soit sur votre machine locale, sur des clusters HPC traditionnels, des clusters Spark™ ou des plateformes de données cloud
« La fonction de calcul haute performance de MATLAB nous permet de traiter de larges volumes de données jamais analysés auparavant. Nos découvertes nous éclairent sur l’impact des activités humaines sur la santé des écosystèmes et nous permettent de prendre des décisions responsables sur les actions de l’Homme sur terre et dans les océans. »
Dr Christopher Clark, Cornell University
Utiliser MATLAB et Simulink pour le Big Data
Accéder aux données
Vous pouvez utiliser MATLAB pour lire des données à partir de grandes collections de fichiers, de bases de données, de plateformes de données et de systèmes de stockage dans le cloud. Les datastores de MATLAB vous permettent d'accéder à des données qui ne tiennent pas dans la mémoire d'un seul ordinateur ou qui sont réparties sur plusieurs fichiers. Ces datastores supportent différents formats de fichiers (CSV, Parquet, MDF, etc.) et systèmes de stockage (AWS S3, Azure Blob, HDFS, bases de données, plateformes de données). Vous pouvez également créer vos propres datastores pour des formats de fichiers personnalisés.
En savoir plus
- Images
- Fichiers Parquet et Avro
- Texte tabulaire, CSV et feuilles de calcul
- Fichiers MDF
- Bases de données (SQL, NoSQL)
- Databricks, Domino Data Lab et Cloudera®
Explorer, nettoyer, transformer et développer des modèles prédictifs
MATLAB vous permet de réaliser de manière efficace l'analyse et l'ingénierie des données sur les Big Data. MATLAB supporte l'opération Predicate Pushdown pour les fichiers Parquet, ce qui vous permet de filtrer les Big Data à la source. Une fois les données lues, vous pouvez les transformer et les combiner à partir de différents datastores pour le prétraitement et l'ingénierie des données.
Les tall arrays MATLAB utilisent un framework d'évaluation paresseuse, qui permet au code basé sur des structures de table et de timetable en mémoire d'être exécuté sur des Big Data, sans réécriture. Les tall arrays supportent des centaines de fonctions mathématiques, statistiques, de manipulation de données et de Machine Learning, que vous pouvez utiliser pour réaliser des analyses statistiques simples ou développer des modèles prédictifs sur les Big Data.
En savoir plus
- Tall arrays
- Ajouter deux lignes à votre code MATLAB pour lui permettre de traiter des Big Data (Blog)
- Transformer et combiner des datastores
Intégrer les Big Data à votre infrastructure informatique et les exploiter
MATLAB peut vous aider à traiter des Big Data de manière efficace en les intégrant à votre infrastructure existante. Vous pouvez passer à l'échelle supérieure et exécuter votre code MATLAB de manière interactive en utilisant le traitement parallèle ainsi qu'en mode de production déployée. Vous pouvez déployer des analyses en streaming, et des applications en mode batch libres de droits. En outre, vous pouvez exécuter votre code et vos modèles MATLAB avec des Big Data sur différentes plateformes de données cloud telles que Databricks, Domino Data Lab et Google® BigQuery.