Text Analytics Toolbox

Analyse und Modellierung von Textdaten

Die Text Analytics Toolbox™ bietet Algorithmen und Visualisierungen für die Vorverarbeitung, Analyse und Modellierung von Textdaten. Mit der Toolbox erstellte Modelle können in Anwendungen wie Stimmungsanalysen, vorausschauende Instandhaltung und Topic-Modelling verwendet werden.

Die Text Analytics Toolbox umfasst Tools für die Verarbeitung von Rohtext aus Quellen wie Geräteprotokollen, Nachrichten-Feeds, Umfragen, Bedienerberichten und Social Media. Sie können Text aus weit verbreiteten Dateiformaten extrahieren, Rohtext vorverarbeiten, einzelne Wörter extrahieren, Text in numerische Darstellungen überführen und statistische Modelle erstellen.

Mithilfe von Machine-Learning-Konzepten wie LSA, LDA und Word Embeddings können Sie Cluster identifizieren und Funktionen aus hochdimensionalen Textdatensätzen erstellen. Mit der Text Analytics Toolbox erstellte Funktionen lassen sich mit Funktionen aus anderen Datenquellen kombinieren. Auf diese Weise können Sie Machine-Learning-Modelle entwickeln, die textuelle, numerische sowie andere Datentypen integriert nutzbar machen.

Jetzt beginnen:

Importieren und Visualisieren von Textdaten

Extrahieren Sie Textdaten aus Quellen wie Social Media, Newsfeeds, Geräteprotokollen, Berichten und Umfragen.

Extrahieren von Textdaten

Importieren Sie Textdaten in MATLAB® aus Einzeldateien oder großen Dateisammlungen, einschließlich PDF-, HTML- und Microsoft® Word®- und Excel®-Dateien.

Textextraktion aus einer Sammlung von Microsoft Word-Dokumenten.

Visualisieren von Text

Untersuchen Sie Textdatensätze mittels Wortwolken und Textstreudiagrammen.

Wortwolke, zur Anzeige der relativen Häufigkeit von Wörtern mithilfe von Größe und Farbe.

Sprachunterstützung

Die Text Analytics Toolbox bietet sprachspezifische Vorverarbeitungsfunktionen für Englisch, Japanisch, Deutsch und Koreanisch. Die meisten Funktionen können auch für Text in anderen Sprachen genutzt werden.

Importieren, Vorbereiten und Analysieren von japanischem Text.

Vorverarbeiten von Textdaten

Extrahieren Sie sinntragende Wörter aus Rohtext.

Bereinigen von Textdaten

Wenden Sie Filterfunktionen auf hoher Abstraktionsebene an, um irrelevante Inhalte wie URLs, HTML-Tags und Interpunktion zu entfernen, und korrigieren Sie Rechtschreibfehler.

Vereinfachen von Rohtext (links), um mit den bedeutungsvollsten Wörtern arbeiten zu können (rechts).

Herausfiltern von Stoppwörtern und Normalisieren von Wörtern zu ihrem Wortstamm

Priorisieren Sie sinntragende Textdaten in Ihren Analysen, indem Sie allgemeinsprachliche-, zu häufig oder zu selten vorkommende- sowie sehr lange oder sehr kurze Wörter herausfiltern. Reduzieren Sie das Vokabular, und konzentrieren Sie sich auf die allgemeinere Bedeutung oder Stimmung eines Dokuments, indem Sie den Wortstamm oder die Grundform (Lemma) von Wörtern ermitteln.

Stoppwörter wie „ein“ oder „von/des“ aus Dokumenten entfernen.

Identifizieren von Token, Sätzen und Wortarten

Teilen Sie Rohtexte mithilfe eines Tokenisierungs-Algorithmus automatisch in eine Auflistung von Wörtern auf. Fügen Sie Satzgrenzen, Wortartdetails und andere relevante Informationen als Kontext hinzu.

Hinzufügen von Wortart- und Satzdetails zu tokenisierten Dokumenten.

Konvertieren von Text in numerische Formate

Konvertieren Sie Textdaten in eine numerische Form, die Sie für Machine Learning und Deep Learning verwenden können.

Identifikation und Visualisierung der am häufigsten vorkommenden Wörter in einem Modell.

Worteinbettung und -codierung

Trainieren Sie Word-Embedding-Modelle wie die Word2vec-Modelle Continuous Bag-of-Words (CBOW) und Skip-Gram. Importieren Sie vortrainierte Modelle wie fastText und GloVe.

Visualisieren von Clustern in einem Textstreudiagramm mithilfe eines Word-Embeddings. 

Machine Learning mit Textdaten

Führen Sie das Topic Modelling, die Klassifikation, die Verringerung der Dimensionalität und die Extraktion der Dokumentzusammenfassungen mit Machine Learning-Algorithmen durch.

Topic Modelling

Erkennen und visualisieren Sie zugrunde liegende Muster, Trends und komplexe Beziehungen in großen Textdatensätzen mithilfe von Machine Learning-Algorithmen wie der latenten Dirichlet Allokation (LDA) und der latenten semantischen Analyse (LSA).

Identifizieren von Themen in Sturmberichtsdaten.

Dokumentenzusammenfassung und Schlüsselwort-Extraktion

Automatisches Extrahieren einer Zusammenfassung und relevanter Schlüsselwörter aus einem oder mehreren Dokumenten und Bewerten der Ähnlichkeit und Bedeutung von Dokumenten.

Extrahieren von Zusammenfassungen aus Texten.

Deep Learning mit Textdaten

Führen Sie Stimmungsanalysen und Klassifikationen mit Deep Learning-Netzen wie beispielsweise LSTMw (Long Short-Term Memory-Netzen) aus.

Stimmungsanalysen

Identifizieren Sie die in Textdaten ausgedrückten Haltungen und Meinungen, um Aussagen als positiv, neutral oder negativ zu kategorisieren. Erstellen Sie Modelle, die Stimmungen in Echtzeit vorhersagen können.

Identifikation von Wörtern, die eine positive und negative Stimmung vorhersagen. 

Textklassifikation

Klassifizieren Sie Textbeschreibungen mithilfe von Word Embeddings, die Textkategorien durch Deep Learning identifizieren können.

Trainieren eines tiefen neuronalen Netzes für die Klassifikation von Textdaten.

Texterzeugung

Verwenden Sie Deep Learning, um neuen Text auf der Grundlage von betrachtetem Text zu erzeugen.

Texterzeugung mit Jane Austens Pride and Prejudice und einem Deep-Learning-LSTM-Netz. 

Weitere Ressourcen zu Text Analytics Toolbox