Text Analytics Toolbox
Analyser et modéliser des données texte
Vous avez des questions ? Contacter un commercial.
Vous avez des questions ? Contacter un commercial.
Text Analytics Toolbox contient des algorithmes et des visualisations pour le prétraitement, l'analyse et la modélisation de données texte. Les modèles créés avec cette toolbox peuvent être utilisés dans des applications telles que l'analyse de sentiments, la maintenance prédictive ou la modélisation thématique.
Text Analytics Toolbox intègre des outils permettant de traiter du texte brut extrait de sources diverses, comme les logs d'un équipement, les fils d'actualités, des sondages, les rapports d'opérateur ou les réseaux sociaux. Vous pouvez extraire du texte depuis tous les formats de fichiers courants, prétraiter le texte brut, extraire des mots, convertir le texte en représentations numériques et construire des modèles statistiques.
Avec des techniques de Machine Learning telles que le LSA, le LDA et le word embedding, vous pouvez identifier des clusters et créer des caractéristiques à partir de jeux de données texte de grande dimension. Les caractéristiques créées avec Text Analytics Toolbox peuvent être combinées avec des caractéristiques provenant d'autres sources de données pour créer des modèles de Machine Learning tirant parti de données texte, numériques et autres.
Importez des données texte dans MATLAB à partir de fichiers uniques ou de vastes collections de fichiers, notamment aux formats PDF, HTML, Microsoft® Word® et Excel®.
Explorez visuellement des jeux de données texte en utilisant des nuages de mots-clés et des diagrammes de dispersion de texte.
Text Analytics Toolbox offre des fonctionnalités de prétraitement spécifiques à l’anglais, au japonais, à l'allemand et au coréen. La plupart des fonctions sont également opérationnelles sur du texte rédigé dans d'autres langues.
Appliquez des fonctions de filtrage de haut niveau pour supprimer les éléments superflus, comme les URL, les balises HTML et la ponctuation, et corriger les fautes d'orthographe.
Priorisez les données texte significatives dans votre analyse en filtrant les mots courants, les mots qui apparaissent trop souvent ou trop rarement ainsi que les mots très longs et très courts. Réduisez le vocabulaire et focalisez-vous sur le sens ou le sentiment plus général du document en transformant les mots sous leur forme radicale (racinisation ou stemming) ou sous leur forme dictionnaire, sans genre, ni pluriel (lemmatisation)
Découpez automatiquement le texte brut en une collection de mots en utilisant un algorithme de tokenisation. Ajoutez des limites de phrases, des détails sur les classes grammaticales des mots et d'autres informations pertinentes pour le contexte.
Calculez les statistiques de fréquence des mots pour représenter numériquement les données texte.
Entraînez des modèles de word embedding, notamment les modèles word2vec CBOW (Continuous Bag-of-words) et Skip-Gram. Importez des modèles pré-entraînés comme fastText et GloVe.
Découvrez et visualisez les patterns sous-jacents, les tendances et les relations complexes qui s'expriment dans de vastes jeux de données texte avec des algorithmes de Machine Learning tels que le LDA (Latent Dirichlet Allocation) ou le LSA (Latent Semantic Analysis).
Réalisez l'extraction automatiquement d'un résumé et de mots-clés pertinents d'un ou plusieurs documents et évaluez la similarité et l'importance des documents.
Identifiez le ton et les opinions exprimées dans les données texte pour catégoriser les affirmations comme étant positives, neutres ou négatives. Élaborez des modèles capables de prédire les sentiments en temps réel.
Réalisez l'analyse de sentiments, la classification, le résumé et la génération de texte en utilisant des algorithmes de Deep Learning.
Exploitez les transformeurs tels que BERT, FinBERT, et GPT-2 pour effectuer un apprentissage par transfert avec des données texte pour des tâches comme l'analyse de sentiments, la classification et le résumé.
Classifiez les descriptions de texte avec des word embeddings permettant de reconnaître des catégories de texte avec le Deep Learning.
Utilisez le Deep Learning pour générer un nouveau texte à partir du texte observé.