COMPUTER VISION

Nous nous servons de nos yeux tous les jours pour éviter les obstacles, atteindre des objets ou accomplir des centaines de tâches différentes. Inspirés par la vision, les scientifiques tentent de donner aux ordinateurs un moyen de « voir » les choses aussi. 

C’est ce que nous appelons la Computer Vision.

Vous avez peut-être déjà entendu ce terme, car il est souvent associé à l’intelligence artificielle, mais en comprenez-vous vraiment le sens et le fonctionnement ? Voici les bases de la Computer Vision.

Qu’est-ce que la Computer Vision ?

La Computer Vision (CV) est une sous-catégorie de l’informatique et de l’intelligence artificielle. C’est un ensemble de méthodes et de technologies qui permettent d’automatiser une tâche spécifique à partir d’une image. En fait, une machine est capable de détecter, d’analyser et d’interpréter un ou plusieurs éléments d’une image afin de prendre une décision et d’effectuer une action. 

La Computer Vision extrait l’information des images et reconnaît des concepts spécifiques. Elle peut donc effectuer une variété de tâches telles que la reconnaissance de visages ou de caractères dans une image, la détection de l’emplacement d’un objet dans une image ou la classification d’images. Les tâches les plus courantes sont la détection d’objets et la classification d’images. 

La détection d’objets consiste à rechercher un élément particulier et à le localiser dans une image, à l’aide d’une « boîte ». Il existe également une méthode de détection plus élaborée et plus précise (au pixel près) appelée segmentation polygonale.

Quant à la classification des images, elle permet d’identifier à quelle catégorie appartient une image, en fonction de sa composition, c’est-à-dire d’identifier le sujet principal de l’image. Cependant, il est possible d’associer plus d’une catégorie à une image grâce au tagging avec une opération similaire à la classification. 

Comment fonctionne la Computer Vision ?

 

Dans la majorité des cas, la computer vision se base sur le Deep Learning (DL), un domaine du Machine Learning.  

Le Deep Learning est un ensemble de techniques d’apprentissage automatique. Il s’appuie sur un réseau de neurones artificiels (aussi appelés réseaux neuronaux convolutionnels), semblables à ceux du cerveau humain. C’est-à-dire qu’un réseau neuronal est constitué de plusieurs couches successives de neurones. Selon l’architecture neurale choisie, chacune de ces couches peut en influencer une autre. 

Pour que l’algorithme de computer vision puisse reconnaître une image, il est nécessaire de former au préalable le réseau neuronal. Pour ce faire, il est doté d’une base de données visuelle, qui a d’abord été annotée manuellement en fonction du type d’information qu’il souhaite extraire.

 

À quoi sert la Computer Vision ?

 

La CV peut servir dans un très large éventail d’industries, comme la construction, l’automobile, le pétrole et le gaz, ou les télécommunications

Dans la pratique, la Computer Vision aide à automatiser les processus métier. Elle aide les humains à détecter des objets, des comportements ou des situations spécifiques faisant gagner beaucoup de temps et réduisant considérablement le taux d’erreurs humaines. De plus, c’est grâce à la CV que se développent des innovations révolutionnaires telles que la voiture autonome ou les objets connectés.

 

 

Que peut reconnaître la Computer Vision?

 

Il existe différentes catégories de Computer Vision telles que le traitement d’images (y compris la reconnaissance d’images), la reconnaissance faciale, la reconnaissance optique de caractères ou la reconnaissance d’iris. Cette diversité signifie que la CV peut être utile pour de nombreux types différents d’industries et de nombreux cas d’usage pratiques. Voici quelques exemples concrets d’applications de CV actuellement en production : 

 

 

Les étapes clés de la Computer Vision 

FIN DES ANNÉES 1950 | EXPÉRIENCE DU CHAT

David Hubel et Torsten Wiesel, respectivement neurologue et neuropsychologue, ont enregistré le son des neurones dans le cortex visuel d’un chat. Ils ont analysé la réaction du cerveau du chat en fonction des différents types d’images présentées. Ils ont conclu que le cortex visuel primaire est composé de neurones simples et complexes et que le traitement visuel est déclenché par des formes simples comme des lignes droites. 

1959 | PREMIER SCANNER NUMÉRIQUE

Russel Kirst, un ingénieur américain, a développé le premier scanner d’images numériques. Il s’agissait d’un scanner à tambour qui capturait l’information des images et la transformait en une série de 0 et 1 appelée « langage binaire » que les ordinateurs sont capables de comprendre. 

1963 | RÉVOLUTION 3D

Lawrence Roberts a initié le processus de transformation des photos 2D en objets solides 3D. La construction 3D a marqué une étape importante dans la recherche en Computer Vision. 

1974 | DÉVELOPPEMENT DE L'OCR

Raymond Kurzweil, un inventeur et ingénieur américain, a développé la reconnaissance optique de caractères. L’OCR est capable de reconnaître pratiquement n’importe quelle police qui a des caractères de forme standard. L’objectif final de ce processus était de créer une machine capable de lire les textes à haute voix pour les personnes aveugles. 

1982 | DÉTECTION DE FORMES ET DE MOTIFS

David Marr, un neuroscientifique britannique, a conçu de nouveaux algorithmes basés sur les travaux de Hubel & Wiesel, pour permettre aux ordinateurs de détecter des formes telles que des bords, des courbes ou des coins.

Pendant ce temps, l’informaticien japonais Funihiko Fukushima introduisait un système de reconnaissance de formes, le Necognitron (également inspiré du modèle de Hubel & Wiesel). Ce modèle de réseau neuronal est convolutionnel et multicouche.

DÉBUT DES ANNÉES 2000 | RECONNAISSANCE D'OBJETS

Depuis le début des années 2000, les chercheurs se concentrent sur la reconnaissance des objets. En 2006, un scientifique spécialisé en IA, Fei-Fei Li, a commencé à travailler sur ImageNet, qui est une importante base de données visuelle. Son ambition était d’améliorer le volume et la qualité des données disponibles pour former les algorithmes d’IA. Depuis 2010, ImageNet est accessible à tous.

Pour gagner en visibilité, un concours appelé ILSVRC est organisé chaque année pour évaluer les algorithmes de détection d’objets et de classification d’images à grande échelle. En 2012, le modèle gagnant AlexNet, du chercheur Alex Krijevsky, a atteint un taux d’erreur de 15,3 %, ce qui constituait une véritable percée à l’époque. Ce succès a mis en lumière la Computer Vision et son énorme potentiel.

COMMENT DEEPOMATIC PEUT VOUS AIDER ?

 

Deepomatic offre une solution unique pour automatiser vos processus métiers, grâce à une plateforme de computer vision.
Avec Deepomatic Studio® & Deepomatic Run®, il vous sera possible de construire, développer et déployer votre projet à l’échelle industrielle.