A lo largo del último año, los avances en el ámbito de la Inteligencia Artificial han crecido de forma notable. Esta oleada, más prominente que nunca, comenzó con la introducción de sistemas generadores de imágenes como Stable Diffusion y Midjourney, seguidos del ascenso destacado de la IA Generativa, ilustrado por ChatGPT de OpenAI. Esta escalada provocó una intensificación de la competición y el desarrollo de mejores modelos, que se integraron en numerosos productos importantes a finales de mayo de 2023, con el apoyo de una comunidad activa de código abierto.
Hoy pretendemos profundizar en la vertiente de la IA que Deepomatic capitaliza en su plataforma: la Computer Vision. Exploraremos su evolución desde sus orígenes, resaltaremos las tendencias emergentes y aclararemos el potencial de los modelos multimodales para revolucionar el control de calidad en las operaciones de campo.
Comprender la Computer Vision
La Computer Vision es un campo de la Inteligencia Artificial que consiste en procesar y analizar imágenes y vídeos de forma automatica para comprender su significado y contexto. Computer Vision ofrece un amplio espectro de posibilidades, como la clasificación, el etiquetado, la detección, la segmentación y el reconocimiento óptico de caracteres (OCR por sus siglas en inglés). Estas tareas se conocen como algoritmos de "aprendizaje supervisado": se "entrenan" a partir de ejemplos de imágenes con anotaciones con los conceptos que deberían ser capaces de reconocer para poder predecir en imágenes los conceptos de interés que el algoritmo no ha encontrado nunca antes.
La evolución de las aplicaciones de Computer Vision
Las primeras aplicaciones de Computer Vision datan de los años 1960 y 1970:
- La inspección industrial para el control de calidad y la detección de defectos
- Imágenes médicas para analizar radiografías y tomografías computarizadas.
- Robótica y automatización permitiendo a los robots percibir e interactuar con su entorno.
- Control y vigilancia del tráfico que incluye tareas como la supervisión del tráfico, el reconocimiento de matrículas y la supervisión de instalaciones de alta seguridad.
- Reconocimiento facial
En la última década surgieron nuevos usos que permitieron a diversas industrias beneficiarse del poder de la Computer Vision:
- Vehículos autónomos
- Sistemas de caja inteligentes
- Control de calidad en el ámbito de los servicios de campo. El objetivo de esta última aplicación es evaluar la calidad y la precisión del trabajo realizado por técnicos de campo. Si desea saber más al respecto, puede descargar nuestro Whitepaper FieldForce Empowerment.
Modelos Monomodales
Hasta recientemente, la Computer Vision se basaba en modelos monomodales, que trabajan exclusivamente con datos provenientes de una única fuente o modalidad, como por ejemplo las imágenes. Un modelo tradicional de clasificación de imágenes, como una red neuronal convolucional (CNN por sus siglas en inglés), es un ejemplo de modelo monomodal. Este modelo procesa datos de imágenes 2D y aprende a reconocer patrones y características en esas imágenes para clasificarlas en categorías predefinidas.
Los modelos monomodales tienen limitaciones. De hecho, si nos fijamos en la forma en que los humanos experimentan el mundo, es a través de una combinación de objetos, sonidos, texturas, olores y sabores. Para que la IA entienda mejor el mundo que nos rodea, tiene que ser capaz de interpretar esas señales multimodales en conjunto, tal y como lo hacemos nosotros.
Los modelos monomodales sólo se entrenan para un conjunto específico de tareas, por lo que ofrecen un nivel limitado de configuración y adaptabilidad, y requieren recopilar datos y entrenar los modelos de forma sistemática. Por eso, hoy en día los modelos multimodales están emergiendo.
La transición a los modelos multimodales
Los modelos de machine learning multimodales pueden manejar datos de múltiples modalidades: imagen, texto, audio, vídeo, temperatura, profundidad, etc., para tener una mayor comprensión sobre el contenido. Estos modelos permiten aprender relaciones y patrones más complejos entre distintos tipos de datos. Las combinaciones más populares son:
- Imagen + Texto
- Imagen + Audio
- Imagen + Texto + Audio
- Texto + Audio
Un ejemplo de modelos multimodales potentes es 'Flamingo'. Flamingo es una familia de modelos de lenguaje visual (VLM por sus siglas en inglés) diseñados para el aprendizaje a partir de pocos ejemplos. Al proporcionar algunos ejemplos al modelo de aprendizaje, además de una pregunta, el modelo es capaz de generar una secuencia que produzca un resultado previsto para la tarea en cuestión.
Ejemplos de entradas y salidas obtenidas a partir del parámetro 80B del Modelo Flamingo
Aplicaciones de control de calidad en las operaciones sobre el terreno
Los gestores de las operaciones de campo y del ciclo de vida de las infraestructuras pueden recuperar operaciones con mayor facilidad interrogando a la base de datos de fotos de operaciones mediante preguntas de texto como "Muéstreme las operaciones a las que les faltan pegatinas en el dispositivo con el cable desenchufado". Esta base de datos funciona como un motor de búsqueda robusto que proporciona acceso a una inteligencia empresarial potente derivada de múltiples fuentes de datos de campo que se pueden cruzar e interpretar.
Cuando están sobre el terreno, los trabajadores de campo recuperan información sobre equipos similares a aquellos con los que están trabajando para ver cómo pueden realizar sus tareas de la mejor manera. Esto les ayuda a mejorar el diagnóstico de las situaciones en las que se encuentran.
Beneficios de los modelos multimodales en el control de calidad sobre el terreno
¿Cómo mejoran los modelos multimodales la eficiencia del control de calidad sobre el terreno?
En primer lugar, facilitan la configuración del modelo de IA durante la implantación al acortar la fase de recopilación de datos. De hecho, las empresas ya no necesitan grandes conjuntos de datos para entrenar los algoritmos y, en su lugar, pueden confiar en un aprendizaje con pocas tomas.
En segundo lugar, en términos de análisis de control de calidad, los modelos multimodales permiten una descripción más detallada de las situaciones en el terreno. Al cruzar diferentes tipos de datos, superan una interpretación binaria de las fotos tomadas por los trabajadores de campo, yendo más allá de un simple enfoque de Sí o No al control de calidad. Por tanto, los modelos multimodales ofrecen la ventaja de eliminar la ambigüedad que en ocasiones existe cuando se utilizan únicamente imágenes. Como resultado, los modelos de IA ofrecen un análisis más sutil y detallado del contexto en el que se llevó a cabo el trabajo en el campo. Además, los comentarios en directo proporcionados a los técnicos pueden contener más información cuando no se valida un punto de control para ayudar al trabajador a entender por qué no lo ha aprobado. Por ejemplo, si la instalación de una bomba de calor en casa de un cliente no se valida debido a una colocación incorrecta, la solución proporcionaría directrices adicionales especificando que la bomba debe situarse a más de 40 cm de cualquier pared.
Además, los modelos multimodales pueden ayudar a reducir los falsos positivos y los falsos negativos, ya que la información de una modalidad puede servir para compensar las deficiencias de otra.
Explorando nuevas fronteras en el ámbito de la Computer Vision multimodal
Los modelos multimodales abren nuevas posibilidades para que las empresas de campo dispongan de más capacidades de IA. Pueden crear diagnósticos de texto completos aprovechando la información vocal grabada por un trabajador de campo y un vídeo del equipo. También podrían utilizar un vídeo de una zanja de fibra óptica como entrada y una cartografía en 3D de las piezas del equipo colocadas al interior como salida, así como cualquier área de interés y el control de calidad automatizado del trabajo sobre la red de fibra en forma de texto.
Otra evolución a tener en cuenta es la miniaturización de los modelos multimodales. Consiste en hacerlos funcionar en teléfonos inteligentes. Sin embargo, requiere que consuman menos energía para garantizar que los técnicos y trabajadores puedan utilizarlos sobre el terreno.
Limitaciones y perspectivas de futuro
Mientras que antes solíamos entrenar varios modelos para responder a diversos requisitos sectoriales o laborales, ahora, gracias a los modelos multimodales, este entrenamiento se realiza una sola vez y tiene un objetivo general. Sin embargo, estos modelos solo pueden resolver problemas complejos si los entrenamos con un gran volumen de conjuntos de datos específicos de la industria o relacionados con el trabajo. Aquí es donde Deepomatic entra en juego, aprovechando nuestra experiencia en el control de calidad de las operaciones de campo. Hemos acumulado conjuntos de datos extremadamente grandes sobre sectores verticales específicos, y actualmente estamos entrenando modelos de fundamentos verticales que serán capaces de resolver una amplia gama de problemas sin necesidad de más entrenamiento.
El avance de los modelos multimodales de Computer Vision supone un avance significativo en el ámbito de la automatización del control de calidad para servicios de campo. Al aprovechar la potencia de diversas fuentes de datos, estos modelos ofrecen una comprensión más sofisticada de las condiciones en el terreno y, finalmente, mejoran la eficiencia y la precisión de las evaluaciones de calidad. A medida que esta tecnología siga evolucionando, prevemos nuevos avances en el ámbito del control de calidad basado en IA. La experiencia de Deepomatic en este dominio, junto con sus amplios conjuntos de datos específicos por sectores, la posicionan al frente de este viaje transformador.