Introduction à la visualisation de données
3 choses à savoir
La visualisation de données est le processus de traduction des données en représentations graphiques telles que des tracés, des graphiques, des cartes et des visualisations 3D, qui vous aident à identifier facilement des motifs, des tendances et des valeurs aberrantes dans les données.
Ces visualisations de données font émerger des relations qu'il serait difficile, voire impossible de déceler par simple observation des données brutes. C'est particulièrement vrai pour les jeux de données volumineux provenant de sources telles que des capteurs, des enregistreurs de données, des dossiers médicaux, des tendances de recherche sur le web et des habitudes de consommation. La visualisation de données joue un rôle central dans la conversion des données en informations exploitables.
Les techniques de visualisation de données varient selon les domaines.
Finance computationnelle
En utilisant des données de marché historiques ou live, la visualisation de données permet d'identifier rapidement des motifs et des tendances, de détecter des anomalies et d'obtenir des informations pertinentes. La visualisation de données permet d'effectuer des analyses, de développer des modèles prédictifs, d'évaluer les risques et de formaliser les stratégies de trading.
Le graphique ci-dessous simule le comportement futur des prix spot de l'électricité à partir d'un modèle de séries temporelles ajusté aux données historiques.
Traitement du signal
Le traitement du signal est utilisé dans des applications telles que l'analyse de la parole, la surveillance de la fréquence cardiaque, les télécommunications, la télédétection, la surveillance du climat et la technologie GPS. Les tâches courantes incluent le prétraitement et la comparaison de signaux, le design de filtres numériques, la transformation de signaux, la réalisation de mesures et la détection de modèles et d'événements. Les visualisations de données servent à analyser les signaux d'intérêt dans les domaines temporel, fréquentiel et temps-fréquence.
Le graphique ci-dessous représente les données audio d'une baleine bleue du Pacifique. La visualisation est créée dans MATLAB® en utilisant l'application Signal Analyzer, qui permet de visualiser les signaux dans les domaines temporel et fréquentiel.
Traitement d'images et Computer Vision
Le traitement d'images et de vidéos permet de trouver des formes, de compter des objets, d'identifier des couleurs, de mesurer les propriétés d'objets et d'extraire d'autres informations pertinentes. Les techniques de traitement d'images sont souvent appliquées dans le cadre d'une étape de prétraitement dans le workflow de Computer Vision. Les applications dans ce domaine comprennent la reconnaissance faciale pour les smartphones, l'évitement des piétons et des véhicules dans le domaine de la conduite autonome, la vidéosurveillance, la détection de tumeurs dans les IRM médicales, et d'autres systèmes de recherche d'images.
Par exemple, BMW utilise des fonctionnalités de Computer Vision dans l'Assisted Driving View (ADV) pour représenter les véhicules environnants et identifier leurs types.
Intelligence artificielle (IA)
La visualisation de données joue un rôle important dans le développement des modèles d'IA (qui utilisent le Machine Learning ou le Deep Learning), car ces modèles reposent sur des jeux de données volumineux, difficiles à interpréter. En Machine Learning, l'analyse de clusters aide à détecter les anomalies et à effectuer le prétraitement des données pour l'apprentissage supervisé. L'analyse en composantes principales (ACP) et l'algorithme t-SNE (t-distributed Stochastic Neighbor Embedding) sont les deux techniques de visualisation de données les plus utilisées, car elles permettent de réduire les dimensions des données permettant ainsi de se concentrer sur des dimensions de différenciation clés.
En Deep Learning, vous pouvez surveiller la progression de l'apprentissage grâce aux visualisations de données telles que les tracés des fonctions de précision et de perte (loss) du réseau, et analyser les réseaux entraînés en utilisant des techniques de visualisation telles que Grad-CAM (Gradient-weighted Class Activation Mapping), la sensibilité aux occlusions, LIME (Local Interpretable Model-agnostic Explanations) et Deep Dream.
Les packages logiciels offrent des fonctionnalités permettant de transformer des données brutes en visualisations riches, telles que des tracés, des graphiques et des diagrammes. L'exemple suivant illustre l'analyse de données de densité du trafic cycliste. En se contentant d'une inspection visuelle des données brutes, il est difficile d'établir une relation entre les points de données.
Horodatage | Jour | Total | Vers l'ouest | Vers l'est | Heure |
‘2015-06-24 07:00:00’ | ‘Mercredi’ | 141 | 13 | 128 | 7 |
‘2015-06-24 08:00:00’ | ‘Mercredi’ | 327 | 44 | 283 | 8 |
‘2015-06-24 09:00:00’ | ‘Mercredi’ | 184 | 32 | 152 | 9 |
‘2015-06-24 10:00:00’ | ‘Mercredi’ | 94 | 30 | 64 | 10 |
‘2015-06-24 11:00:00’ | ‘Mercredi’ | 67 | 24 | 43 | 11 |
‘2015-06-24 12:00:00’ | ‘Mercredi’ | 66 | 32 | 34 | 12 |
‘2015-06-24 13:00:00’ | ‘Mercredi’ | 67 | 32 | 35 | 13 |
Le diagramme à barres ci-dessous montre que la densité du trafic cycliste augmente et diminue au fil des jours de la semaine. Il est maintenant clair que le nombre de cyclistes est plus important en semaine que le week-end. Cette visualisation nous permet de déduire que les cyclistes empruntant cet itinéraire font principalement le trajet entre leur domicile et leur lieu de travail.
Un scatter plot peut être utilisé pour tirer davantage d'informations des mêmes données. Le graphique suivant montre le nombre total de vélos se dirigeant respectivement vers l'est et vers l'ouest à des moments précis de la journée. Sur la base de ce graphique, nous pouvons conclure que les routes en direction de l'est conduisent aux quartiers d'affaires, tandis que les routes en direction de l'ouest conduisent aux zones résidentielles. De plus, nous pouvons établir que les heures de pointe du trafic sont de 8h00 à 10h00 en direction de l'est et de 16h00 à 18h00 en direction de l'ouest.
Un diagramme en essaims est un type particulier de scatter plot qui permet de révéler les tendances en matière de densité du trafic cycliste en fonction des heures de la journée, des différents jours de la semaine et de la direction.
Dans l'exemple du trafic cycliste, la visualisation de données avec différents types de tracés (graphiques à barres, scatter plot, diagramme en essaims) nous aide à extraire des informations utiles à partir du jeu de données, notamment les jours de trafic de pointe, la direction du trajet et l'heure la plus chargée de la journée.
MATLAB est une plateforme de programmation et de calcul numérique utilisée pour l'analyse de données, le développement d'algorithmes et la création de modèles. Elle supporte l'ensemble du workflow d'analyse de données, y compris l'acquisition des données directement dans MATLAB, l'analyse et la visualisation de ces données, et l'exportation des résultats. Vous pouvez utiliser des applications interactives pour visualiser vos données sans avoir à écrire de code. Les applications génèrent automatiquement le code MATLAB approprié pour vous, ce qui vous permet d'automatiser et de réutiliser votre travail.
Créer des visualisations de données
MATLAB offre un large éventail de types de graphiques prédéfinis, notamment des graphiques linéaires, des scatter plots, des tracés de distribution et des tracés géographiques, permettant de visualiser des jeux de données provenant d'un ensemble diversifié d'applications. Avec le langage MATLAB, vous pouvez créer des visualisations de manière interactive ou programmatique.
Explorer les visualisations de données
Vous pouvez explorer votre visualisation de manière interactive, notamment :
- Effectuer un zoom avant ou arrière sur une section spécifique du jeu de données
- Explorer interactivement des visualisations en mode panoramique ou rotation
- Afficher des lignes de tendance ou des valeurs de données directement sur la visualisation
- Ombrer et mettre en surbrillance des points de données
- Basculer entre les domaines (par exemple, domaine temporel, fréquentiel, S, Z)
Annoter et personnaliser les visualisations de données
Vous pouvez annoter vos visualisations de manière interactive en mettant l'accent sur les informations essentielles que vous souhaitez communiquer, par exemple :
MATLAB génère automatiquement le code correspondant aux modifications interactives que vous apportez à votre graphique. Vous pouvez réutiliser ce code en l'ajoutant à votre script.
Les jeux de données complexes peuvent être difficiles à visualiser avec des graphiques simples. MATLAB vous permet de créer des graphiques personnalisés répondant à vos besoins de visualisation et de leur ajouter des interactions personnalisées.
Exemples :
- Composant sparklines—Créez de petits graphiques linéaires qui montrent la tendance générale de chaque vecteur dans un jeu de données multivecteurs tel qu'un tableau. Observez et comparez les tendances des données pour chaque ligne/colonne.
- Scatter plot de densité : utilisez la couleur (ou la transparence) pour identifier la densité des points.
Explorez d'autres exemples de conteneurs de graphiques personnalisés sur File Exchange dans MATLAB Central.
Exporter des visualisations de données
Vous pouvez exporter directement vos visualisations personnalisées et annotées pour les utiliser sur le web ou dans des présentations et des rapports.
Intégrer la visualisation de données à l'analyse de données
La visualisation de données est souvent associée à l'analyse et au prétraitement des données. Les applications MATLAB comme Data Cleaner et Signal Analyzer combinent ces étapes.
Les contrôles interactifs vous permettent de spécifier des opérations sans avoir à écrire de code, et les visualisations de données correspondantes sont intégrées directement dans l'application. Vous pouvez ainsi voir immédiatement les résultats d'une tâche donnée. Une fois votre analyse et votre prétraitement terminés, les applications peuvent générer automatiquement le code MATLAB correspondant, ce qui vous permet d'automatiser les étapes, même sur des données différentes.
Visualisations spécifiques à l'application
Les toolboxes MATLAB proposent des visualisations spécifiques aux applications, ainsi que des applications interactives qui combinent la visualisation avec le prétraitement et l'analyse des données.
Application Econometric Modeler pour la visualisation et l'analyse de données de séries temporelles univariées ou multivariées (dans Econometrics Toolbox™).
Réponse en fréquence des étages individuels d'un convertisseur abaisseur numérique à plusieurs étages (dans DSP System Toolbox™).
Blocage Bluetooth LE, intermodulation et test de performance du rapport porteuse/interférence (dans Bluetooth® Toolbox).
Beamforming pour un système de réseau d'antennes (dans Phased Array System Toolbox™).
Applications intéressantes de la visualisation de données
Les capacités de visualisation de données de MATLAB ont permis aux organisations d'atteindre efficacement leurs objectifs de recherche.
Ford développe un outil pour l'analyse des résultats des tests de cycle de conduite
L'équipe Vehicle Energy Management Engineering chez Ford a utilisé MATLAB pour développer leur outil CycleTool permettant d'évaluer les émissions, la consommation de carburant et les performances de leurs véhicules. L'outil leur permet d'évaluer les performances du système en visualisant les résultats des tests hardware par rapport aux prédictions et simulations de leur modèle.
Décrypter le vol du papillon grâce à des caméras à haute vitesse et une soufflerie
Les chercheurs de l'Université de Lund ont découvert ce qui donne au vol des papillons ce motif de battement distinct, en utilisant MATLAB pour le traitement des images, l'analyse de données, la modélisation et les visualisations. Étudier le comportement de vol des papillons permet aux ingénieurs de construire des drones volants (ou même nageurs) plus efficaces et dynamiques. Les chercheurs ont utilisé les fonctionnalités de visualisation de données de MATLAB pour analyser et comparer les performances des designs d'ailes inspirés de leur analyse du comportement de vol des papillons.
State Street Global Advisors développe un modèle de notation pour apporter de la transparence aux investissements ESG
L'équipe de développement de State Street Global Advisors a généré des histogrammes, scatter plots, box plots et autres visualisations pour affiner leurs algorithmes dans le cadre du développement de R-Factor™, un système qui aide les investisseurs à prendre des décisions éclairées et à améliorer leurs scores environnementaux, sociaux et de gouvernance (ESG).
Bosch développe une plateforme unique pour l'analyse et la visualisation des données de test automobile
Bosch a utilisé MATLAB pour développer ENValyzer (Engineering Test Data Visualizer and Analyzer), un outil servant à visualiser, traiter, analyser et générer des rapports sur les données de test obtenues à partir de dispositifs de mesure, de bancs d'essai et de véhicules. Les ingénieurs Bosch ont pu effectuer le rendu des données sous forme de diverses vues : unique, secondaire, tracé matriciel et multiaxes.