Machine Learning avec MATLAB

Chapitre 1

Introduction au Machine Learning

Davantage de données, davantage de questions, de meilleures réponses

Les algorithmes de Machine Learning trouvent des patterns naturels dans les données qui génèrent des informations aidant à prendre des décisions plus éclairées et à établir de meilleures prédictions. Ils sont utilisés au quotidien pour prendre des décisions cruciales pour le diagnostic médical, les opérations boursières, la prévision de la consommation énergétique, et plus encore. Les sites de contenus multimédias exploitent le Machine Learning pour passer au crible des millions d'options afin de proposer des recommandations de chansons ou de films. Les entreprises du commerce ont recours au Machine Learning pour mieux connaître les comportements d'achat de leurs clients.

Industries de l'automobile et de la fabrication : maintenance prédictive

Finance computationnelle : credit scoring et trading algorithmique

Traitement d'images et Computer Vision : reconnaissance faciale et détection d'objets

Biologie computationnelle : détection de tumeurs, découverte de médicaments et séquençage de l'ADN

Production d'énergie : prévision des prix et de la charge du réseau

Traitement du langage naturel

Applications concrètes :

Comment fonctionne le Machine Learning

Le Machine Learning fait appel à deux types de techniques : l’apprentissage supervisé, qui entraîne un modèle sur des données d'entrée et de sortie connues afin de prédire les résultats futurs, et l’apprentissage non supervisé, qui identifie des patterns cachés ou des structures intrinsèques dans les données d'entrée.

Supervisé

Classification

Les techniques de classification prédisent des réponses discrètes, comme par exemple, si un e-mail est authentique ou un spam, ou si une tumeur est cancéreuse ou bénigne. Les modèles de classification classent les données d'entrée en catégories. Les applications les plus représentatives concernent l'imagerie médicale, la reconnaissance vocale et le credit scoring.

Régression

Les techniques de régression prédisent des réponses continues, comme par exemple des variations de température ou des fluctuations de la demande d'électricité. Les applications les plus représentatives concernent la prévision de la consommation électrique et le trading algorithmique.

Non supervisé

L’apprentissage non supervisé permet de trouver des patterns cachés et des structures intrinsèques dans les données. Il permet de tirer des conclusions à partir de jeux de données composés d'entrées sans réponses étiquetées.

Le clustering est la technique d’apprentissage non supervisé la plus courante. Il est utilisé dans l'analyse exploratoire de données afin de trouver des patterns ou des regroupements cachés dans les données.

Les applications utilisant le clustering concernent notamment l'analyse de séquences de gènes, les études de marché et la reconnaissance d'objets.

Comment choisir l'algorithme à utiliser ?

Choisir le bon algorithme peut sembler très compliqué : il existe des dizaines d'algorithmes de Machine Learning supervisé et non supervisé, et chacun d'entre eux adopte une approche différente pour l'apprentissage. Il n'existe ni méthode idéale ni solution universelle. Déterminer le bon algorithme à utiliser est en partie une question de tâtonnement. Même les data scientists les plus expérimentés ne peuvent pas dire si un algorithme fonctionnera sans l'avoir essayé. Mais le choix de l'algorithme dépend également du volume et du type de données manipulées, des informations que vous souhaitez obtenir à partir de ces données et de la manière dont ces informations seront utilisées.

Machines à vecteurs de support (SVM)
Analyse discriminante
Classification naïve bayésienne
Méthode des plus proches voisins

Régression linéaire, modèle linéaire généralisé (GLM)
Régression à vecteurs de support (SVR), régression par processus gaussiens (GPR)
Méthodes ensemblistes
Arbres de décision
Réseaux de neurones

Clustering k-Means, clustering k-Medoids
Clustering c-Means flou
Clustering hiérarchique
Modèles de mélange gaussien
Réseaux de neurones
Chaînes de Markov cachées

Quand utiliser le Machine Learning ?

Le Machine Learning est une option à envisager dans le cas d’une tâche ou d’un problème complexe impliquant une grande quantité de données et de nombreuses variables, mais aucune formule ou équation existante. Le Machine Learning est par exemple une option intéressante dans les situations ci-dessous.

Quand les règles et équations manuscrites sont trop complexes, comme dans le cas de la reconnaissance faciale ou vocale

Quand la nature des données ne cesse d'évoluer et le programme doit s’adapter en permanence, comme dans le cas du trading automatisé, de la prédiction de la demande d'énergie et de la prédiction des tendances d'achat

Quand les règles d'une tâche changent constamment, comme dans le cas de la détection des fraudes à partir des enregistrements de transactions

SUIVANT
Chapitre 2 : Premiers pas