Stemming

Stemming

Le stemming est une technique de normalisation de texte utilisée dans le traitement du langage naturel qui transforme les mots en leur radical. Le stemming consiste principalement à supprimer les affixes des mots, ce qui peut aboutir à un mot invalide dans le dictionnaire. Par exemple, après l'étape de stemming, les mots « requiring », « required » et « requirement » seront réduits à « require ».

Le stemming est couramment utilisée pour :

  • La recherche d'information, où le radical d'un mot est utilisé comme synonyme pour élargir les critères de recherche
  • Les applications d'ingénierie visant à réduire la dimensionnalité, où le stemming permet de réduire le nombre de mots à rechercher et à utiliser dans un modèle avec des algorithmes de Machine Learning

L'algorithme de Porter, l'une des approches de stemming les plus populaires pour la langue anglaise, repose sur des règles heuristiques simples. Cette méthode de stemming est rapide mais sa précision n'est pas toujours garantie. Au cours des années suivantes, de nombreux autres algorithmes ont été proposés, mais l'algorithme de stemming de Porter reste populaire en raison de sa rapidité et de sa simplicité.

Une approche apparentée au stemming, mais plus sophistiquée, est la lemmatisation. Comparaison des deux approches :

  • La lemmatisation utilise le vocabulaire et l'analyse morphologique, tandis que le stemming utilise des règles heuristiques simples
  • La lemmatisation renvoie les formes des mots qu'on trouve dans le dictionnaire, alors que le stemming peut aboutir à des mots invalides.

Les différences entre la lemmatisation et le stemming sont présentées dans un exemple ci-dessous.

Mot réel Lemmatisation Stemming
Requiring Require Requir
Required Require Requir
Requirement Requirement Requir

Pour en savoir plus sur le stemming et la construction de modèles avec des données texte, découvrez Text Analytics Toolbox™.


Voir aussi: natural language processing, sentiment analysis, word2vec, n-gram, text mining with MATLAB, data science, deep learning, Deep Learning Toolbox™, Statistics and Machine Learning Toolbox™