Accueil / Actualités / Le Deep Learning, c’est quoi ? – Définition du mois

Le Deep Learning, c'est quoi ?

Décryptage autour de l'IA / 20 juin 2019

L’apprentissage profond (en anglais deep learning, deep structured learning, hierarchical learning) est un ensemble de méthodes d’apprentissage automatique tentant de modéliser des données avec un haut niveau d’abstraction grâce à différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l’analyse du signal sonore (dont la reconnaissance vocale) ou visuel (dont la reconnaissance faciale), de la vision par ordinateur et du traitement automatisé du langage.

Un peu d’histoire de l’apprentissage

Les idées de base du deep learning remontent à la fin des années 80, avec la naissance des premiers réseaux de neurones. Ces progrès ont suscité à partir des années 2000 des investissements en constante croissance, notamment de la part du GAFA (Google, Apple, Facebook, Amazon).

En octobre 2015, le programme alphaGo (Google DeepMind) ayant appris à jouer au jeu de go par la méthode de l’apprentissage profond a battu par 5 parties à 0 le champion européen Fan Hui3.

En mars 2016, le même programme a battu le champion du monde Lee Sedol 4 parties à 1.
Le deep learning est une technique permettant à un programme de reconnaître par exemple le contenu d’une image ou de comprendre le langage parlé. Dans le passé, il fallait expliquer « à la main » à l’outil comment transformer une image pour la classifier.

Avec le deep learning, la machine apprend à le faire elle-même et même mieux que les humains. Concrètement, pour qu’un programme apprenne selon une méthode dite supervisée à reconnaître un avion, il faut lui fournir des dizaines de milliers d’images d’avions. Suite à cet entrainement, les algorithmes seront en capacité de reconnaitre des avions sur des nouvelles images.

Comment fonctionne le deep learning ?

Le deep learning apprend à partir d’un « réseau de neurones », une machine virtuelle composée de milliers d’unités (les neurones) qui effectuent chacune des calculs simples. Le réseau est composé de multiples couches successives permettant couche après couche de transmettre des informations transformées. Par exemple, comment reconnaître une image de chat (sujet très à la mode sur Internet) ?

 

Les points remarquables sont les yeux et les oreilles. Les oreilles sont reconnaissables à partir de leur angle, une ligne par des différences de pixels. Ces informations seront ensuite transmises à la couche suivante pour les combiner, et ainsi de suite. Pour reconnaître une personne, le deep learning décompose l’image : le visage, les cheveux, la bouche, puis il poursuivra vers des propriétés de plus en plus fines, comme le grain de beauté, alors que les méthodes traditionnelles vont comparer des pixels entre eux.

Demander des informations