Text Analytics Toolbox

 

Text Analytics Toolbox

Analyser et modéliser des données texte

En savoir plus:

Importer et visualiser des données texte

Réalisez l'extraction de données texte à partir de sources diverses comme les réseaux sociaux, les fils d'actualités, les logs d'un équipement, des rapports ou des sondages.

Extraire des données texte

Importez des données texte dans MATLAB® à partir de fichiers uniques ou de vastes collections de fichiers, notamment aux formats PDF, HTML, Microsoft® Word® et Excel®.

Extraction de données texte d'un ensemble de documents Microsoft Word

Visualiser du texte

Explorez visuellement des jeux de données texte en utilisant des nuages de mots-clés et des diagrammes de dispersion de texte.

Nuage de mots mettant en évidence la fréquence relative des mots en utilisant différentes couleurs et tailles de polices.

Support pour les langues

Text Analytics Toolbox offre des fonctionnalités de prétraitement spécifiques à l’anglais, au japonais, à l'allemand et au coréen. La plupart des fonctions sont également opérationnelles sur du texte rédigé dans d'autres langues.

Importation, préparation et analyse de données texte en japonais

Prétraiter des données texte

Réalisez l'extraction de mots significatifs d'un texte brut.

Nettoyer des données texte

Appliquez des fonctions de filtrage de haut niveau pour supprimer les éléments superflus, comme les URL, les balises HTML et la ponctuation, et corriger les fautes d'orthographe.

Simplifier un texte brut (à gauche) pour utiliser les mots les plus significatifs (à droite)

Filtrer les mots vides et normaliser les mots sous leur forme radicale

Priorisez les données texte significatives dans votre analyse en filtrant les mots courants, les mots qui apparaissent trop souvent ou trop rarement ainsi que les mots très longs et très courts. Réduisez le vocabulaire et focalisez-vous sur le sens ou le sentiment plus général du document en transformant les mots sous leur forme radicale (racinisation ou stemming) ou sous leur forme dictionnaire, sans genre, ni pluriel (lemmatisation)

Suppression des mots vides, comme « a » et « of », d'un document

Identifier les symboles, les phrases et la classe grammaticale

Découpez automatiquement le texte brut en une collection de mots en utilisant un algorithme de tokenisation. Ajoutez des limites de phrases, des détails sur les classes grammaticales des mots et d'autres informations pertinentes pour le contexte.

Ajout de détails sur les classes grammaticales et les phrases aux documents segmentés.

Convertir des données texte en format numérique

Convertissez les données texte en données numériques pour les utiliser en Machine Learning et en Deep Learning.

Comptage des mots et des N-grammes

Calculez les statistiques de fréquence des mots pour représenter numériquement les données texte.

Identifier et visualiser les mots les plus fréquents dans un modèle

Word embedding et encodage

Entraînez des modèles de word embedding, notamment les modèles word2vec CBOW (Continuous Bag-of-words) et Skip-Gram. Importez des modèles pré-entraînés comme fastText et GloVe.

Visualisation de clusters dans un diagramme de dispersion de texte avec des word embeddings 

Machine Learning et données texte

Effectuez la modélisation thématique, l'analyse de sentiments, la classification et la réduction de dimensionnalité, ainsi que l'extraction du résumé d'un document, avec des algorithmes de Machine Learning.

Modélisation thématique

Découvrez et visualisez les patterns sous-jacents, les tendances et les relations complexes qui s'expriment dans de vastes jeux de données texte avec des algorithmes de Machine Learning tels que le LDA (Latent Dirichlet Allocation) ou le LSA (Latent Semantic Analysis).

Identification de thèmes dans les données d'un rapport météorologique

Résumé de documents et extraction de mots-clés

Réalisez l'extraction automatiquement d'un résumé et de mots-clés pertinents d'un ou plusieurs documents et évaluez la similarité et l'importance des documents.

Extraction d'un résumé à partir d'un texte

Analyse de sentiments

Identifiez le ton et les opinions exprimées dans les données texte pour catégoriser les affirmations comme étant positives, neutres ou négatives. Élaborez des modèles capables de prédire les sentiments en temps réel.

Identifier les mots qui prédisent un sentiment positif ou négatif.

Deep Learning et données texte

Réalisez l'analyse de sentiments, la classification, le résumé et la génération de texte en utilisant des algorithmes de Deep Learning.

Modèles de type transformeur

Exploitez les transformeurs tels que BERT et GPT-2 pour effectuer un apprentissage par transfert avec des données texte pour des tâches comme l'analyse de sentiments, la classification et le résumé.

Transformeurs pour l'apprentissage par transfert avec des données texte

Classification de texte

Classifiez les descriptions de texte avec des word embeddings permettant de reconnaître des catégories de texte avec le Deep Learning.

Apprentissage d'un réseau de neurones profond pour classifier des données texte

Génération de texte sur la base du roman Orgueil et Préjugés de Jane Austen avec un réseau de Deep Learning LSTM