Démystifier l’apprentissage automatique : Supervisé, non supervisé, renforcement

Dans ce billet de blog, nous explorons différents types d’apprentissage automatique. Débutons par un exemple simple auquel tout le monde peut s’identifier. Vous voulez enseigner à un enfant de trois ans une discipline de base consistant à ranger ses jouets au bon endroit. La pièce est pleine de blocs emboîtables et de peluches. Il y a deux boîtes – une pour les blocs et une autre, plus grande, pour les peluches. Vous voulez entraîner l’enfant à mettre le bon jouet dans la bonne boîte.

Vous commencez par montrer un bloc, puis vous placez le bloc dans la boîte à blocs ; de même, vous prenez un jouet souple, puis vous le placez dans la boîte à jouets. Avec quelques itérations, l’enfant apprend ce qu’est un » bloc » et dans quelle boîte il doit aller, et ce qu’est un » doudou » et la boîte désignée pour le doudou.

Ce type d’apprentissage est appelé apprentissage supervisé (à lire : l’apprentissage Google Classroom !) . C’est un type d’apprentissage automatique, où l’on guide le système en étiquetant la sortie. Par exemple, un système d’apprentissage automatique supervisé qui peut apprendre quels e-mails sont des » spams » et lesquels ne le sont pas aura ses données d’entrée étiquetées avec cette classification pour aider le système d’apprentissage automatique à apprendre les caractéristiques ou les paramètres de l’e-mail ; » spam » et à le distinguer de ceux des e-mails » non spam « . Tout comme un enfant de trois ans apprend la différence entre un » bloc » et un » jouet « , le système d’apprentissage automatique supervisé apprend à distinguer les courriels » spam » des » non spam « . Des techniques telles que les régressions linéaires ou logistiques et la classification par arbre de décision entrent dans cette catégorie d’apprentissage.

Disons maintenant que vous voulez tester l’intelligence de l’enfant de trois ans et que vous lui demandez de trier les blocs en différents tas. L’enfant n’a reçu aucun » indice » de votre part mais il reconnaît les différentes formes des blocs. Il prend tous les blocs carrés et crée une pile, tous les blocs rectangulaires dans une autre pile et ainsi de suite. L’enfant peut également trier les blocs en fonction de leur couleur ou même d’une combinaison de forme et de couleur. Nous appelons ce type d’apprentissage » sans aide » l’apprentissage non supervisé.

L’apprentissage non supervisé est une forme un peu plus difficile d’apprentissage automatique. Dans ce type d’apprentissage, les données d’entrée ne sont pas » étiquetées « , ce qui oblige le système à déduire les frontières ou les classifications qui se produisent naturellement. Un bon exemple est celui d’une grande quantité de données d’enquête pour laquelle le système d’apprentissage doit déterminer des segments de consommateurs en fonction de leurs caractéristiques sociodémographiques ou comportementales. Des techniques telles que le clustering ou la réduction de dimension sont des types de techniques d’apprentissage non supervisé qui peuvent prendre des données brutes et former des groupes basés sur certaines caractéristiques des données.

Maintenant, au lieu de dire à l’enfant quel jouet mettre dans quelle boîte, vous récompensez l’enfant avec un » gros câlin » quand il fait le bon choix et faites un » visage triste » quand il fait la mauvaise action (par exemple, un bloc dans une boîte de peluche ou une peluche dans la boîte de bloc). Très rapidement, après quelques itérations, l’enfant apprend quels jouets doivent aller dans quelle boîte – c’est ce qu’on appelle l’apprentissage par renforcement. Les systèmes dynamiques qui peuvent entreprendre une action dans le monde réel et mesurer le résultat pour corriger leur comportement futur présentent souvent ce type d’apprentissage. Les techniques de la théorie du contrôle et les processus de décision de Markov sont des types d’apprentissage par renforcement.