Le résultat de l’exécution de l’algorithme d’apprentissage machine peut être exprimé sous la forme d’une fonction y (x) qui prend une nouvelle image numérique x en entrée et génère un vecteur de sortie y, codé de la même manière que les vecteurs cibles. La forme précise de la fonction y (x) est déterminée pendant la phase d’apprentissage sur la base des données d’apprentissage. Une fois que le modèle est formé, on peut ensuite déterminer l’identité de nouvelles images numériques, qui sont supposées constituer un ensemble de tests. La possibilité de classer correctement de nouveaux exemples différents de ceux utilisés pour la formation est connue sous le nom de généralisation. Dans des applications pratiques, la variabilité des vecteurs d’entrée sera telle que les données d’apprentissage ne pourront comprendre qu’une infime fraction de tous les vecteurs d’entrée possibles, et la généralisation est donc un objectif central de la reconnaissance de forme.

Pour la plupart des applications pratiques, les variables d’entrée d’origine sont généralement prétraitées pour les transformer en un nouvel espace de variables où, on l’espère, le problème de reconnaissance de modèle sera plus facile à résoudre. Par exemple, dans le problème de reconnaissance des chiffres, les images des chiffres sont généralement traduites et mises à l’échelle de sorte que chaque chiffre soit contenu dans une boîte de taille fixe. Cela réduit considérablement la variabilité au sein de chaque classe de chiffres, car l’emplacement et l’échelle de tous les chiffres sont désormais les mêmes, ce qui facilite grandement la distinction entre les différentes classes pour un algorithme de reconnaissance de modèle ultérieur. Cette étape de prétraitement est parfois appelée extraction de fonctionnalités. Notez que les nouvelles données de test doivent être prétraitées en suivant les mêmes étapes que les données de formation.

Un prétraitement peut également être effectué pour accélérer le calcul. Par exemple, si l’objectif est la détection de visage en temps réel dans un flux vidéo haute résolution, l’ordinateur doit gérer un grand nombre de pixels par seconde et leur présentation directe à un algorithme complexe de reconnaissance de modèle peut être irréalisable.

Au lieu de cela, le but est de trouver des fonctionnalités utiles à calculer rapidement, tout en préservant des informations discriminatoires utiles permettant de distinguer les visages des non-faces. Ces caractéristiques sont ensuite utilisées comme entrées dans l’algorithme de reconnaissance de formes. Par exemple, la valeur moyenne de l’intensité de l’image sur une sous-région rectangulaire peut être évaluée de manière extrêmement efficace (Viola et Jones, 2004), et un ensemble de telles caractéristiques peut s’avérer très efficace pour la détection rapide du visage. Étant donné que le nombre de ces fonctionnalités est inférieur au nombre de pixels, ce type de prétraitement représente une forme de réduction de la dimension. Des précautions doivent être prises lors du prétraitement car souvent les informations sont supprimées et si ces informations sont importantes pour la résolution du problème, la précision globale du système peut en souffrir.

Les applications dans lesquelles les données d’apprentissage comprennent des exemples des vecteurs d’entrée avec leurs vecteurs cibles correspondants sont appelées problèmes d’apprentissage supervisés. Les cas tels que l’exemple de reconnaissance des chiffres, dans lequel le but est d’affecter chaque vecteur d’entrée à un nombre fini de catégories discrètes, sont appelés problèmes de classification. Si la sortie souhaitée consiste en une ou plusieurs variables continues, la tâche est appelée régression. Un exemple de problème de régression serait la prédiction du rendement dans un processus de fabrication chimique dans lequel les intrants comprennent les concentrations de réactifs, la température et la pression.

Dans d’autres problèmes de reconnaissance de motif, les données d’apprentissage consistent en un ensemble de vecteurs d’entrée x sans aucune valeur cible correspondante. Le but de ces problèmes d’apprentissage non supervisé peut être de découvrir des groupes d’exemples similaires dans les données, appelés regroupement, ou de déterminer la distribution des données dans l’espace d’entrée, appelée estimation de densité, ou de projeter les données à partir d’un espace dimensionnel à deux ou trois dimensions à des fins de visualisation.

Enfin, la technique de l’apprentissage par renforcement (Sutton et Barto, 1998) se préoccupe du problème de trouver des actions appropriées à adopter dans une situation donnée afin de maximiser la récompense. Ici, l’algorithme d’apprentissage ne donne pas d’exemples de résultats optimaux, contrairement à l’apprentissage supervisé, mais doit plutôt les découvrir par un processus d’essais et d’erreurs. Il existe généralement une séquence d’états et d’actions dans laquelle l’algorithme d’apprentissage interagit avec son environnement. Dans de nombreux cas, l’action en cours n’affecte pas seulement la récompense immédiate, mais a également un impact sur la récompense.