Publié le

Opérations sur le terrain 2.0 : L'émergence de Modèles de Vision par Ordinateur Multimodaux pour l'automatisation du contrôle qualité

Au cours de la dernière année, des avancées notables dans le domaine de l'Intelligence Artificielle ont été observées. Cette vague, plus marquée que jamais, a débuté avec l'introduction de systèmes de génération d'images tels que Stable Diffusion et Midjourney, suivie par l'ascension remarquable de l'IA générative, exemplifiée par ChatGPT d'OpenAI. Cette avancée a entraîné une concurrence intense et le développement de modèles améliorés, qui ont été intégrés dans de nombreux produits majeurs avant la fin mai 2023, avec le soutien d'une communauté open-source active.

Dans cet article, nous nous concentrons sur la branche de l'IA sur laquelle Deepomatic capitalise pour sa plateforme : la vision par ordinateur. Nous explorerons son évolution depuis ses débuts, mettrons en lumière les tendances émergentes et éclairerons le potentiel des modèles multimodaux pour révolutionner le contrôle qualité dans les opérations sur le terrain.

Compréhension de la vision par ordinateur

La vision par ordinateur est un domaine de l'Intelligence Artificielle qui implique le traitement et l'analyse d'images et de vidéos numériques pour en comprendre automatiquement la signification et le contexte. La vision par ordinateur offre un large éventail de capacités, telles que la classification, l'étiquetage, la détection, la segmentation et la Reconnaissance Optique de Caractères (OCR). Ces tâches sont appelées des algorithmes d'apprentissage supervisé : ils sont entraînés à partir d'exemples d'images annotées avec les concepts qu'ils devraient être en mesure de reconnaître, afin de prédire ensuite les concepts intéressants dans les images que l'algorithme n'a jamais rencontrées auparavant.

L'évolution des applications de la vision par ordinateur

Les premières applications exploitant la vision par ordinateur remontent aux années 1960 et 1970 :

  • Inspection industrielle pour le contrôle qualité et la détection de défauts
  • Imagerie médicale pour l'analyse de radiographies et de scanners CT
  • Robotique et Automatisation, permettant aux robots de percevoir et d'interagir avec leur environnement.
  • Contrôle du trafic et surveillance englobant des tâches telles que la surveillance du trafic, la reconnaissance de plaques d'immatriculation et la surveillance d'installations de haute sécurité
  • Reconnaissance faciale

Au cours de la dernière décennie, de nouveaux cas d'utilisation ont émergé, permettant à diverses industries de tirer parti de la puissance de la vision par ordinateur :

  • Voitures autonomes
  • Systèmes de caisse intelligente
  • Contrôle qualité dans le domaine des services sur le terrain. L'objectif de cette dernière application est d'évaluer la qualité et l'exactitude du travail effectué par les techniciens sur le terrain. Si vous souhaitez en savoir plus à ce sujet, téléchargez notre livre blanc sur les équipes terrain augmentées.

Les modèles monomodaux

Jusqu'à récemment, la vision par ordinateur s'appuyait sur des modèles monomodaux, qui fonctionnent exclusivement sur des données provenant d'une seule source ou modalité, telle que les images. Un modèle de classification d'image traditionnel, comme un Réseau de Neurones Convolutifs (CNN), est un exemple de modèle monomodal. Il prend des données d'images en 2D en entrée et apprend à reconnaître des motifs et des caractéristiques dans ces images pour les classer dans des catégories prédéfinies.

Les modèles monomodaux ont des limitations. En effet, si nous observons la façon dont les humains perçoivent le monde, c'est à travers une combinaison d'objets, de sons, de textures, d'odeurs et de saveurs. Pour que l'IA progresse dans la compréhension du monde qui nous entoure, elle doit être capable d'interpréter de tels signaux multimodaux ensemble, tout comme nous le faisons. Les modèles monomodaux sont formés pour une seule série spécifique de tâches, ils offrent donc un niveau limité de configuration et d'adaptabilité, et nécessitent systématiquement de collecter des données et d'entraîner les modèles. C'est pourquoi aujourd'hui, les modèles multimodaux émergent.

Passage aux Modèles Multimodaux

Les modèles d'apprentissage machine multimodaux peuvent manipuler des données provenant de plusieurs modalités : image, texte, audio, vidéo, température, profondeur, etc., pour obtenir une compréhension plus approfondie du contenu. Ils permettent l'apprentissage de relations et de motifs plus complexes à travers différents types d'entrées. Les combinaisons les plus populaires sont :

  • Image + Texte
  • Image + Audio
  • Image + Texte + Audio
  • Texte + Audio

Un exemple de puissants modèles multimodaux est appelé 'Flamingo'. Flamingo est une famille de modèles de langage visuel (VLM) conçus pour l'apprentissage à quelques exemples. En fournissant quelques exemples au modèle d'apprentissage sous forme de requête, le modèle est capable de générer une continuation pour produire une sortie prédite pour la tâche.

Exemples de données d’entrée et de sortie obtenues avec le modèle Flamingo

Applications dans le contrôle qualité des services sur le terrain

Les gestionnaires des opérations sur le terrain et du cycle de vie de l'infrastructure peuvent récupérer plus facilement les opérations en interrogeant la base de données de photos d'opérations en utilisant des questions textuelles comme "Montrez-moi les opérations avec des autocollants manquants sur l'appareil, avec un câble débranché", etc. Cette base de données sert de moteur de recherche robuste, offrant un accès à une puissante intelligence d'affaires dérivée de plusieurs sources de données sur le terrain qui peuvent être croisées et interprétées. 

Lorsqu'ils sont sur place, les travailleurs sur le terrain récupèrent des informations sur des équipements similaires à ceux sur lesquels ils travaillent afin de voir comment ils peuvent mieux accomplir leurs tâches. Cela les aide à améliorer leur diagnostic des situations dans lesquelles ils se trouvent.

Avantages des Modèles Multimodaux dans le contrôle qualité sur le terrain

Comment les modèles multimodaux améliorent-ils l'efficacité du contrôle qualité sur le terrain ?

Premièrement, ils simplifient la configuration du modèle IA lors de la mise en œuvre, en raccourcissant la phase de collecte de données. En effet, les entreprises n'ont plus besoin de vastes ensembles de données pour entraîner les algorithmes et peuvent plutôt compter sur l'apprentissage à partir de quelques exemples.

Deuxièmement, en termes d'analyse du contrôle qualité, les modèles multimodaux permettent une description plus granulaire des situations sur le terrain. En croisant différents types de données, ils dépassent une interprétation binaire des photos prises par les travailleurs sur le terrain, allant au-delà d'une approche simple Oui ou Non pour le contrôle qualité. Par conséquent, les modèles multimodaux offrent l'avantage de lever l'ambiguïté qui existe parfois lorsqu'on se base uniquement sur des images. Ainsi, les modèles IA fournissent une analyse plus subtile et nuancée du contexte dans lequel le travail a été effectué sur le terrain. De plus, les retours d'information en direct fournis aux techniciens peuvent contenir plus d'informations lorsqu'un point de contrôle n'est pas validé, pour aider le travailleur à comprendre pourquoi il n'a pas été accepté. Par exemple, si l'installation d'une pompe à chaleur chez un client est refusée en raison d'un positionnement incorrect, la solution fournira des directives supplémentaires, précisant que la pompe doit être située à plus de 40 cm de tout mur.

De plus, les modèles multimodaux peuvent aider à réduire les faux positifs et les faux négatifs, car les informations d'une modalité peuvent compenser les lacunes d'une autre.

Exploration des nouvelles frontières de la vision par ordinateur Multimodale sur le terrain

Les modèles multimodaux ouvrent de nouvelles possibilités pour doter les entreprises sur le terrain de capacités d'IA supplémentaires. Ils peuvent créer un diagnostic textuel complet en exploitant les retours vocaux enregistrés par un travailleur sur le terrain, ainsi qu'une vidéo de l'équipement. Ils pourraient également utiliser une vidéo d'une tranchée de fibre optique en entrée, et une cartographie 3D des pièces d'équipement qui y sont installées en sortie, ainsi que toute zone d'intérêt, et le résultat du contrôle qualité sous forme de texte.

Une autre évolution à surveiller est la miniaturisation des modèles multimodaux. Cela consiste à les faire fonctionner sur des smartphones. Cependant, il est nécessaire de les rendre moins énergivores pour garantir qu'ils puissent être utilisés sur le terrain par les techniciens et les travailleurs.

Limitations et perspectives d'avenir

Dans le passé, nous avions l'habitude de former différents modèles pour servir des fins spécifiques à l'industrie ou à l'emploi, mais grâce aux modèles multimodaux, cette formation ne se produit qu'une seule fois et vise un objectif plus général. Cependant, ces modèles ne peuvent résoudre des problèmes complexes que si nous les formons sur un grand volume d'ensembles de données spécifiques à l'industrie ou à l'emploi. C'est là que Deepomatic entre en jeu, s'appuyant sur notre expertise en contrôle qualité pour les opérations sur le terrain. Nous avons accumulé des ensembles de données extrêmement vastes sur des verticales industrielles spécifiques et nous formons actuellement des modèles fondamentaux verticaux qui seront en mesure de résoudre une grande variété de problèmes, sans besoin de formation supplémentaire.

L'essor des modèles de vision informatique multimodaux marque une avancée significative dans le domaine de l'automatisation du contrôle qualité pour les services sur le terrain. En exploitant la puissance de sources de données diverses, ces modèles offrent une compréhension plus sophistiquée des situations sur le terrain, améliorant ainsi l'efficacité et la précision des évaluations de la qualité. À mesure que cette technologie continue d'évoluer, nous anticipons d'autres percées dans le domaine du contrôle qualité piloté par l'IA. L'expertise de Deepomatic dans ce domaine, associée à de larges ensembles de données spécifiques à certaines industries, nous place en bonne position pour aborder cette transformation.

background

Automatiser la Qualité. Accélérer la Croissance.