Im vergangenen Jahr hat es einen bemerkenswerten Schub an Fortschritten im Bereich der künstlichen Intelligenz gegeben. Dieser Fortschritt, der stärker ausgeprägt ist als je zuvor, begann mit der Einführung von Systemen zur Bildgenerierung wie Stable Diffusion und Midjourney, gefolgt von dem bemerkenswerten Aufstieg der generativen KI, wie beispielsweise ChatGPT von OpenAI. Diese Fortschritte führten zu einer Intensivierung des Wettbewerbs und der Entwicklung verbesserter Modelle, die bis Ende Mai 2023 in zahlreiche wesentliche Produkte integriert wurden und gestützt sind von einer aktiven Open-Source-Community.
In diesem Artikel widmen wir uns dem Zweig der künstlichen Intelligenz, den Deepomatic für seine Plattform nutzt: Computer Vision. Wir betrachten die Entwicklung seit den Anfängen, zeigen neue Trends auf und beleuchten das Potenzial multimodaler Modelle, die Qualitätskontrolle im Außendienst zu revolutionieren.
Computer Vision verstehen
Computer Vision ist ein Bereich der künstlichen Intelligenz, der sich mit der automatischen Verarbeitung und Analyse von digitalen Bildern und Videos befasst, um deren Inhalt und Kontext zu verstehen. Computer Vision bietet ein breites Spektrum an Möglichkeiten, wie z. B. Klassifizierung, Markierung, Erkennung, Segmentierung und optische Zeichenerkennung (OCR). Diese Aufgaben sind als Algorithmen des "überwachten Lernens" (engl. “supervised learning”) bekannt: Sie werden anhand von Beispielen kommentierter Bilder mit den Konzepten "trainiert", die sie erkennen sollen, um die interessanten Konzepte in Bildern vorherzusagen, die der Algorithmus noch nicht kennt.
Die Evolution der Computer Vision-Anwendungen
Die ersten Anwendungen, bei denen die Computer Vision zum Einsatz kam, lassen sich bis in die 1960er und 1970er Jahre zurückverfolgen:
- Industrielle Inspektion zur Qualitätskontrolle und Fehlererkennung
- Medizinische Bilderfassung zur Analyse von Röntgen- und CT-Aufnahmen
- Robotik und Automatisierung, die es Robotern ermöglichen, ihre Umgebung wahrzunehmen und mit ihr zu interagieren.
- Verkehrskontrolle und -überwachung mit Funktionen wie Verkehrsüberwachung, Nummernschilderkennung und Überwachung von Hochsicherheitsanlagen
- Gesichtserkennung
In den letzten zehn Jahren sind neue Anwendungsfälle entstanden, die es verschiedenen Branchen ermöglichen, die Leistungsfähigkeit der Computer Vision zu nutzen:
- Selbstfahrende Autos
- Intelligente Kassiersysteme
- Qualitätskontrolle im Bereich des Außendienstes. Ziel der letztgenannten Anwendung ist es, die Qualität und Genauigkeit der von den Technikern im Außendienst geleisteten Arbeit zu überprüfen und zu bewerten. Wenn Sie mehr darüber lesen möchten, laden Sie unser Whitepaper FieldForce Empowerment herunter.
Monomodale Modelle
Bis vor kurzem stützte sich die Computer Vision auf monomodale Modelle, die ausschließlich mit Daten aus einer einzigen Quelle oder Modalität, wie z. B. Bildern, arbeiten. Ein traditionelles Modell zur Bildklassifizierung, wie ein Convolutional Neural Network (CNN), ist ein Beispiel für ein solches einmodales Modell. Es verwendet 2D-Bilddaten als Input und lernt, Muster und Merkmale in diesen Bildern zu erkennen, um sie in vordefinierte Kategorien zu klassifizieren.
Monomodale Modelle haben ihre Grenzen. Wenn wir die Art und Weise betrachten, wie Menschen die Welt wahrnehmen, so geschieht dies durch eine Kombination von Bildern, Geräuschen, Texturen, Gerüchen und Geschmackseindrücken. Damit die künstliche Intelligenz die Welt um uns herum besser verstehen kann, muss sie in der Lage sein, derartige multimodalen Signale kombiniert zu interpretieren, so wie wir es tun.
Monomodale Modelle werden nur für einen bestimmten Aufgabentyp trainiert und bieten daher nur ein begrenztes Maß an Konfiguration und Anpassungsfähigkeit, und sie erfordern eine systematische Datenerfassung und Training der Modelle. Aus diesem Grund werden heute multimodale Modelle entwickelt.
Der Übergang zu multimodalen Modellen
Multimodale maschinelle Lernmodelle können Daten aus verschiedenen Modalitäten verarbeiten: Bild, Text, Audio, Video, Temperatur, Tiefe usw., um ein tieferes Verständnis von Inhalten zu gewinnen. Sie ermöglichen das Erlernen komplexerer Beziehungen und Muster über verschiedene Arten von Dateninputs hinweg. Die beliebtesten Kombinationen sind:
- Bild + Text
- Bild + Audio
- Bild + Text + Audio
- Text + Audio
Indem dem Lernmodell einige Beispiele als Eingabeaufforderung (engl. "prompt") zusammen mit einer Abfrage zur Verfügung gestellt werden, ist das Modell in der Lage, eine Fortsetzung zu generieren, um einen vorhergesagten Output für die Aufgabe der Abfrage zu erzeugen.
Beispiele für Inputs und Outputs aus dem Flamingo-Modell mit 80B-Parametern (Quelle)
KI-Anwendungen für die Qualitätskontrolle im Außendienst
Manager, die für den Außendienst und den Lebenszyklus der Infrastruktur zuständig sind, können Vorgänge leichter abrufen, indem sie die Datenbank mit Fotos von Vorgängen mit Hilfe von Textfragen wie "Zeige mir Vorgänge mit fehlenden Etiketten auf dem Gerät, mit nicht angeschlossenem Kabel" usw. abfragen. Diese Datenbank dient als robuste Suchmaschine und bietet Zugriff auf leistungsstarke Business Intelligence, die aus mehreren Quellen von Außendienstdaten abgeleitet wird, die kombiniert und interpretiert werden können.
Im Außendienst erhalten die Mitarbeiter Informationen über ähnliche Geräte wie das, an dem sie gerade arbeiten, um zu sehen, wie sie ihre Aufgaben am besten erledigen können. Dies hilft ihnen, ihre Diagnose von Arbeitssituationen, in denen sie sich befinden, zu verbessern.
Vorteile von multimodalen Modellen bei der Qualitätskontrolle im Außendienst
Wie verbessern multimodale Modelle die Effizienz der Qualitätskontrolle im Außendienst?
Zum einen erleichtern sie die KI-Modellkonfiguration während der Implementierung, indem sie die Datenerfassungsphase verkürzen. Unternehmen benötigen jetzt keine großen Datensätze mehr, um die Algorithmen zu trainieren, und können sich stattdessen auf das Lernen in wenigen Schritten verlassen.
Zum anderen ermöglichen multimodale Modelle im Hinblick auf die Analyse der Qualitätskontrolle eine detailliertere Beschreibung der Situationen im Außeneinsatz. Durch die Verknüpfung verschiedener Datentypen gehen sie über eine binäre Interpretation der von den Außendienstmitarbeitern aufgenommenen Fotos und über einen einfachen Ja-oder-Nein-Ansatz zur Qualitätskontrolle hinaus. Multimodale Modelle bieten daher den Vorteil, dass sie die Mehrdeutigkeiten und Unklarheiten beseitigen, die bestehen können, wenn nur Bilder verwendet werden. Infolgedessen liefern KI-Modelle eine subtilere und nuanciertere Analyse des Kontexts, in dem die Arbeit vor Ort ausgeführt wurde. Darüber hinaus kann das Live-Feedback, das den Technikern zur Verfügung gestellt wird, mehr Informationen liefern, wenn ein Kontrollpunkt nicht validiert wurde, damit der Arbeiter versteht, warum der Punkt nicht gültig war. Wenn zum Beispiel die Installation einer Wärmepumpe bei einem Kunden wegen falscher Positionierung nicht validiert wird, würde die Lösung zusätzliche Richtlinien bereitstellen, die erklären, dass die Pumpe mehr als 40 cm von jeder Wand entfernt sein sollte.
Darüber hinaus können multimodale Modelle dabei unterstützen, falsch-positive und falsch-negative Ergebnisse zu reduzieren, da die Informationen einer Modalität etwaige Unzulänglichkeiten einer anderen kompensieren können.
Grenzen der multimodalen Computer Vision im Außendienst erweitern
Multimodale Modelle eröffnen neue Möglichkeiten, um Außendienstunternehmen mit mehr KI-Funktionen auszustatten. Sie können eine vollständige Textdiagnose erstellen, indem sie das von einem Außendienstmitarbeiter aufgezeichnete stimmliche Feedback sowie ein Video des Equipments nutzen. Sie könnten auch ein Video eines Glasfasergrabens als Eingabe und eine 3D-Kartierung der darin verlegten Komponenten als Ausgabe verwenden, ebenso wie jeden Bereich von Interesse darin und die automatisierte Qualitätskontrolle von Faserwerken in Textform.
Eine weitere Entwicklung, die es zu beachten gilt, ist die Miniaturisierung der multimodalen Modelle. Dies bedeutet, dass sie auf Smartphones laufen können. Allerdings erfordert dies, dass sie weniger energieintensiv sind, damit sie von Technikern und Arbeitern vor Ort eingesetzt werden können.
Beschränkungen und der Weg in die Zukunft
Während wir in der Vergangenheit verschiedene Modelle für unterschiedliche branchen- oder berufsspezifische Zwecke trainiert haben, erfolgt dieses Training dank multimodaler Modelle nur einmal und zielt auf einen allgemeineren Zweck ab. Diese Modelle können jedoch nur dann komplexe Probleme lösen, wenn sie mit einer großen Anzahl von branchenspezifischen oder berufsbezogenen Datensätzen trainiert werden. An diesem Punkt kommt Deepomatic ins Spiel, bei dem wir auf unser Fachwissen im Bereich der Qualitätskontrolle im Außendienst zurückgreifen. Wir haben extrem große Datensätze zu bestimmten Branchen aufgebaut und trainieren derzeit vertikale Basismodelle, die in der Lage sein werden, eine breite Palette von Problemen ohne weiteres Training zu lösen.
Die Weiterentwicklung multimodaler Computer Vision-Modelle stellt einen bedeutenden Fortschritt im Bereich der Automatisierung der Qualitätskontrolle im Außendienst dar. Durch die Nutzung verschiedener Datenquellen bieten diese Modelle ein differenzierteres Verständnis von Außendienstsituationen und verbessern letztlich die Effizienz und Genauigkeit von Qualitätsbewertungen. Mit der kontinuierlichen Weiterentwicklung dieser Technologie erwarten wir weitere Durchbrüche auf dem Gebiet der KI-gesteuerten Qualitätskontrolle. Die Expertise von Deepomatic in diesem Bereich, gepaart mit umfangreichen branchenspezifischen Datensätzen, positioniert unser Unternehmen an der Spitze dieser transformativen Reise.