Natural Language Processing (natürliche Sprachverarbeitung) ist ein Teilbereich der künstlichen Intelligenz (KI), der Computer darauf trainiert, menschliche Sprache in mündlicher und schriftlicher Form zu verstehen. Die natürliche Sprachverarbeitung kombiniert Computerlinguistik mit Machine Learning und Deep Learning zur Verarbeitung von Sprach- und Textdaten, die auch mit anderen Datentypen zur Entwicklung intelligenter technischer Systeme verwendet werden können.
So funktioniert natürliche Sprachverarbeitung
Die Verarbeitung natürlicher Sprache zielt darauf ab, unstrukturierte Sprachdaten in ein strukturiertes Format umzuwandeln, das Maschinen zur Interpretation von Text- und Sprachdateien, zur Aufdeckung und zur Visualisierung komplexer Beziehungen in großen Datensätzen, aber auch um neue Sprachdaten zu erzeugen, nutzen können.
Rohe Sprachdaten können aus verschiedenen Quellen stammen, z. B. aus Audiosignalen, dem Internet und sozialen Medien sowie Dokumenten und Datenbanken. Diese Daten enthalten wertvolle Informationen wie Sprachbefehle, die öffentliche Stimmung zu bestimmten Themen, Betriebsdaten und Wartungsberichte. Die Verarbeitung natürlicher Sprache kann diese großen Datenquellen kombinieren, vereinfachen und sie mit Visualisierungen sowie Themenmodellen in aussagekräftige Erkenntnisse verwandeln.
Verarbeitung natürlicher Sprache anhand von Sprachdaten, Erkennung menschlicher Sprache in einem Audiosegment, Umwandlung von Sprache in Text und Anwendung von Text Mining und Machine Learning auf den abgeleiteten Text.
Datenvorbereitung für die natürliche Sprachverarbeitung
Zu den Techniken, die bei der Verarbeitung natürlicher Sprache verwendet werden, um Text aus einem unstrukturierten Format in ein strukturiertes Format umzuwandeln, gehören unter anderem:
Tokenisierung: In der Regel ist dies der erste Schritt der Textverarbeitung für die Verarbeitung natürlicher Sprache. Es handelt sich um die Aufteilung des Textes in Sätze oder Wörter.
Stemming: Diese Textnormalisierungstechnik reduziert Wörter auf ihre Stammformen durch das Entfernen ihrer Affixe. Sie verwendet einfache heuristische Regeln und kann zu ungültigen Grundformen der Wörter führen.
Lemmatisierung: Diese hochentwickelte Textnormalisierungstechnik verwendet Vokabular- und morphologische Analysen, um Affixe von Wörtern zu entfernen. Aus „Gebäude hat Stockwerke“ wird beispielsweise „Bau haben Stockwerk“
Word2vec: Die beliebteste Implementierung unter den Worteinbettungstechniken ist Word2vec. Die Technik erstellt eine verteilte Darstellung von Wörtern in numerischen Vektoren, die die Semantik und die Beziehungen zwischen den Wörtern erfassen.
N-Gramm-Modellierung: Ein N-Gramm ist eine Sammlung von n aufeinanderfolgenden Elementen in einem Textdokument, die Wörter, Zahlen, Symbole und Interpunktion enthalten können. N-Gramm-Modelle können bei Anwendungen zur Verarbeitung natürlicher Sprache nützlich sein, bei denen Wortfolgen von Bedeutung sind, z. B. bei der Stimmungsanalyse, Textklassifizierung und Texterstellung.
Verarbeitung natürlicher Sprache mit KI
KI-Modelle, die auf Sprachdaten trainiert wurden, können Muster erkennen und nachfolgende Zeichen oder Wörter in einem Satz vorhersagen. Zur Erstellung von Modellen für die Verarbeitung natürlicher Sprache können Sie klassische Machine-Learning-Algorithmen (z. B. logistische Regression oder Entscheidungsbäume) oder Deep-Learning-Architekturen wie Convolutional Neural Networks (CNN), rekurrente neuronale Netze (RNN) und Auto-Encoder verwenden. Mit CNNs können Sie beispielsweise Text klassifizieren und mit RNNs Zeichenfolgen erzeugen.
Transformer-Modelle (eine Art Deep-Learning-Modell) haben die Verarbeitung natürlicher Sprache revolutioniert und bilden die Grundlage für große Sprachmodelle (LLMs) wie BERT und ChatGPT™. Mit Transformers lassen sich Zusammenhänge in sequentiellen Daten verfolgen. Sie stützen sich auf einen Selbstbeobachtungsmechanismus, um globale Abhängigkeiten zwischen Eingabe und Ausgabe zu erfassen.
Im Zusammenhang mit der Verarbeitung natürlicher Sprache ermöglicht dies LLMs, langfristige Abhängigkeiten, komplexe Beziehungen zwischen Wörtern und Nuancen in natürlicher Sprache zu erfassen. LLMs können alle Wörter parallel verarbeiten und damit das Training und die Inferenz beschleunigen.
Ähnlich wie bei anderen vortrainierten Deep-Learning-Modellen können Sie Transfer Learning mit vortrainierten LLMs durchführen, um ein bestimmtes Problem in der natürlichen Sprachverarbeitung zu lösen. Sie können zum Beispiel ein BERT-Modell für japanischen Text feinabstimmen.
Einstieg in die natürliche Sprachverarbeitung mit Beispielen
Warum die Verarbeitung natürlicher Sprache wichtig ist
Bei der Verarbeitung natürlicher Sprache lernen Maschinen, menschliche Sprache zu verstehen und zu erzeugen. Die Anwendungsmöglichkeiten sind vielfältig, und mit der Weiterentwicklung der KI-Technologie wird der Einsatz der natürlichen Sprachverarbeitung – von alltäglichen Aufgaben bis hin zu fortschrittlichen technischen Workflows – zunehmen.
Häufige Aufgaben bei der Verarbeitung natürlicher Sprache sind Spracherkennung, Sprechererkennung, Sprachverbesserung und Eigennamenerkennung (Named Entity Recognition). In einem Teilbereich der natürlichen Sprachverarbeitung, dem sogenannten Natural Language Understanding (NLU), können Sie die syntaktische und semantische Analyse von Sprache und Text nutzen, um die Bedeutung eines Satzes zu extrahieren. Zu den NLU-Aufgaben gehören die Klassifizierung von Dokumenten und die Sentiment-Analyse.
Ein weiterer Teilbereich der Verarbeitung natürlicher Sprache, der als Natural Language Generation (NLG) bezeichnet wird, umfasst Methoden, um per Computer Textantworten auf eine bestimmte Dateneingabe zu erzeugen. NLG begann als schablonenbasierte Texterstellung, KI-Techniken ermöglichen jetzt die dynamische Texterstellung in Echtzeit. Zu den NLG-Aufgaben gehören die Textzusammenfassung und die maschinelle Übersetzung.
Die Verarbeitung natürlicher Sprache wird im Finanzwesen, in der Fertigung, in der Elektronik, in der Software, in der Informationstechnologie und in anderen Branchen für Anwendungen wie die folgenden eingesetzt:
- Automatisierung der Klassifizierung von Rezensionen entsprechend der Stimmung, positiv oder negativ
- Zählen der Häufigkeit von Wörtern oder Sätzen in Dokumenten und Themenmodellierung
- Automatisierte Kennzeichnung und Verschlagwortung von Sprachaufnahmen
- Entwicklung von Plänen für die vorausschauende Wartung auf der Basis von Sensoren und Textprotokolldaten.
- Automatisieren der Formalisierung von Anforderungen und die Überprüfung ihrer Einhaltung
Anwendung natürlicher Sprachverarbeitung mit MATLAB
Verarbeitung natürlicher Sprache mit MATLAB
Mit MATLAB können Sie Pipelines für die Verarbeitung natürlicher Sprache von der Datenaufbereitung bis zur Bereitstellung erstellen. Mit der Deep Learning Toolbox™ oder Statistics and Machine Learning Toolbox™ mit Text Analytics Toolbox™ können Sie die Verarbeitung natürlicher Sprache auf Textdaten anwenden. Mit der Audio Toolbox™ können Sie auch Sprachdaten in natürlicher Sprache verarbeiten.
Datenaufbereitung
Sie können Low-Code-Anwendungen zur Vorverarbeitung von Sprachdaten für die Verarbeitung natürlicher Sprache verwenden. Mit der App Signal Analyzer untersuchen und analysieren Sie Ihre Daten, die App Signal Labeler kennzeichnet die Ground Truth. Sie können mit der Funktion Extract Audio Features domänenspezifische Merkmale extrahieren und Zeit-Frequenz-Transformationen durchzuführen. Anschließend können Sie mit der Funktion speech2text Sprache in Text umwandeln.
Sobald Sie Textdaten für die Anwendung der natürlichen Sprachverarbeitung haben, können Sie die unstrukturierten Sprachdaten interaktiv in ein strukturiertes Format umwandeln und Ihre Daten mit der Funktion Preprocess Text Data im Live Editor bereinigen. Alternativ können Sie Ihre NLP-Daten auch programmatisch mit den integrierten Funktionen aufbereiten.
Mit Wortwolken und Streudiagrammen können Sie Ihre Textdaten und Modelle für die natürliche Sprachverarbeitung visualisieren.
KI-Modellierung
Sie können viele Modelle für Machine Learning zur Klassifizierung oder Regression trainieren. So lassen sich beispielsweise Long Short-term Memory (LSTM)-Netze mit nur wenigen Zeilen MATLAB Programmcode erstellen und trainieren. Sie können Deep-Learning-Modelle auch mit der App Deep Network Designer erstellen und trainieren und das Modelltraining mit Diagrammen zu Genauigkeit, Verlust und Validierungsmetriken überwachen.
Statt ein Deep-Learning-Modell komplett neu zu entwickeln, können Sie ein vortrainiertes Deep-Learning-Modell verwenden, das Sie direkt für Ihr Projekt zur Verarbeitung natürlicher Sprache nutzen oder entsprechend anpassen können. Mit MATLAB können Sie auf vortrainierte Netzwerke aus dem MATLAB Deep Learning Model Hub zugreifen. Mit dem VGGish-Modell können Sie beispielsweise Merkmalseinbettungen aus Audiosignalen extrahieren, das wav2vec-Modell transkribiert Sprache zu Text und das BERT-Modell klassifiziert Dokumente. Modelle aus TensorFlow™ oder PyTorch™ können Sie mit den Funktionen importNetworkFromTensorFlow or importNetworkFromPyTorch importieren.
Mehr Information zu natürlicher Sprachverarbeitung
Verwandte Themen
Website auswählen
Wählen Sie eine Website aus, um übersetzte Inhalte (sofern verfügbar) sowie lokale Veranstaltungen und Angebote anzuzeigen. Auf der Grundlage Ihres Standorts empfehlen wir Ihnen die folgende Auswahl: .
Sie können auch eine Website aus der folgenden Liste auswählen:
So erhalten Sie die bestmögliche Leistung auf der Website
Wählen Sie für die bestmögliche Website-Leistung die Website für China (auf Chinesisch oder Englisch). Andere landesspezifische Websites von MathWorks sind für Besuche von Ihrem Standort aus nicht optimiert.
Amerika
- América Latina (Español)
- Canada (English)
- United States (English)
Europa
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)
Asien-Pazifik
- Australia (English)
- India (English)
- New Zealand (English)
- 中国
- 日本Japanese (日本語)
- 한국Korean (한국어)