Figura 1: Bloques fundamentales de la visión artificial
La visión artificial usa cámaras como ojos que captan la información visual del entorno circundante. La resolución y la sensibilidad son dos aspectos importantes de cualquier sistema de visión artificial. La resolución se encarga de diferenciar los objetos, mientras que la sensibilidad es la capacidad de la máquina para detectar objetos o pulsos débiles pese a luces tenues o longitudes de onda invisibles.
Los principales componentes del sistema son la iluminación, el objetivo, los sensores de imagen, el procesamiento de la visión y los dispositivos de comunicación, y a menudo se emplean ópticas especializadas para adquirir las imágenes. La tecnología de visión artificial es una combinación de software y hardware que da control operativo a los dispositivos que ejecutan funciones como la captura y el procesamiento de imágenes y la medición de diversas características necesarias para la toma de decisiones. Los componentes de hardware abarcan varios objetos como cámaras, sensores, procesadores, captura de fotogramas, iluminación LED y ópticos. El segmento de la oferta de software se divide en subcategorías de software de visión artificial para aplicaciones específicas y software de visión artificial de aprendizaje profundo.
Los proveedores de sistemas de visión artificial ofrecen principalmente dos tipos de servicios: integración y gestión de soluciones. Los integradores de sistemas de visión artificial se usan para aplicaciones de inspección, pruebas, ensamblaje y calibrado y ayudan a los clientes a cumplir las especificaciones de sus productos. La gestión de soluciones se usa para operaciones de depuración de un solo paso, control de inspección (arranque y parada) y soluciones de abrir y guardar.
Cómo elegir el hardware adecuado
Existen muchas opciones a la hora de decidir el hardware que ejecutará su aplicación de IA de visión artificial. Los arrays de puertas programables en campo (FPGA), las unidades de procesamiento gráfico (GPU) e incluso los microcontroladores (MCU) tienen cada uno sus propias ventajas.
Las FPGA son unidades de procesamiento muy potentes que se pueden configurar para satisfacer los requisitos de casi cualquier aplicación. Se pueden crear arquitecturas de FPGA a medida para manejar aplicaciones específicas. Las FPGA tienen un rendimiento mucho mayor, costes más bajos y mayor eficiencia energética en comparación con otras opciones como las GPU y las CPU. Las GPU son procesadores especializados diseñados principalmente para procesar imágenes y vídeos. En comparación con las CPU, se basan en unidades de procesamiento más simples pero con un número mucho mayor de núcleos. Esto hace que las GPU sean excelentes para aplicaciones en las que es necesario procesar grandes cantidades de datos de forma paralela, como los píxeles de imágenes o los codecs de vídeo. Las CPU tienen un número limitado de núcleos, lo que inhibe su capacidad para procesar rápidamente las grandes cantidades de datos necesarias para la IA.
Sensor de imagen e iluminación
Al desarrollar un sistema de visión artificial, la selección del sensor de imagen adecuado puede ser una de las decisiones de diseño más importantes. El diseño requiere la captura de imágenes de alta resolución, transferencia de datos rápida con ruido mínimo y potencia de procesamiento eficiente capaz de preparar los datos para el análisis y generar salidas. Los avances en la iluminación frontal (FSI) y trasera (BSI) de la tecnología de sensores CMOS permiten obtener imágenes de mayor resolución con poca luz.
También es importante la iluminación adecuada. La base de la totalidad del rendimiento de la iluminación se reduce a tres características principales del sensor de imagen: la eficiencia cuántica (QE), la corriente oscura y la capacidad de saturación. Cuando se implementa en una cámara, la QE máxima de ésta debe ser inferior a la del sensor, debido a los efectos ópticos y electrónicos externos.
La corriente oscura y la capacidad de saturación son también importantes en el diseño de los sistemas de visión artificial. La corriente oscura mide la variación en el número de electrones generados térmicamente dentro del sensor de imágenes CMOS y puede añadir ruido. La capacidad de saturación denota el número de electrones que puede almacenar un píxel individual. Se pueden usarse junto con medidas de QE para obtener la relación señal/ruido (S/N) máxima, la sensibilidad absoluta y el rango dinámico de una aplicación.
La iluminación adecuada contribuirá a aumentar la precisión y la eficiencia de una aplicación de visión artificial. Otros factores que se deben tener en cuenta junto con la iluminación incluyen la longitud de onda (como los infrarrojos), la iluminación fija e incluso la colocación de la iluminación. Se ha demostrado que las fuentes de luz y los reflejos que brillan directamente sobre las cámaras de los sistemas de visión artificial disminuyen la precisión en la detección de los objetos.
Cómo elegir la cámara de visión artificial adecuada
Los avances recientes en la tecnología de visión artificial ahora permiten a las cámaras transferir imágenes de altos megapíxeles a tasas de fotogramas muy rápidas. Para la selección de la mejor interfaz es necesario revisar varias consideraciones, como la elección del tipo de sensor (CMOS o CCD), la cámara a color o monocromo, el formato de salida de la cámara (GigE, Camera Link, CoaXPress, USB3, HD-SDI) y la tasa de fotogramas. Los CCD tienen mejor calidad de imagen, mejor sensibilidad a la luz, mayor rendimiento frente al ruido y un obturador global ideal. Los sensores CMOS son conocidos por su alta velocidad, la integración del sistema en el chip y su bajo coste de fabricación.
Los fabricantes de cámaras aprovechan los avances más recientes en sensores y las mejoras en el diseño de las cámaras para ayudar a los desarrolladores e integradores de sistemas de visión artificial a crear sistemas de captura de imágenes más rápidos, flexibles y capaces. Las mayores resoluciones de cámara conllevan la necesidad de ópticas de mayor calidad y de formato más grande fácilmente disponibles, con opciones que incluyen lentes líquidas integradas para sistemas de autoenfoque. La óptica para longitudes de onda no visibles hace posibles nuevas formas de detectar cosas con imágenes especializadas que usan longitudes de onda que van desde el ultravioleta hasta las bandas de infrarrojo.
Los productos de iluminación LED, cruciales para todas las aplicaciones de visión artificial, ahora vienen en una amplia variedad de longitudes de onda y factores de forma. Tienen mayor flexibilidad, con ángulos ajustables y longitudes de onda adicionales, una respuesta espectral más consistente e incluso fuentes programables con controles embebidos. Un factor importante es el surgimiento de interfaces de hasta 100 G, así como la interfaz CoaXPress 2.0 recientemente actualizada e incluso interfaces PCI.
Cómo elegir un objetivo de visión artificial
Decidir cuál es el objetivo (lente) adecuado para una aplicación de visión artificial exige revisar las especificaciones requeridas, hacer algunos cálculos y pensar cómo se integrará el objetivo con la configuración de la cámara. A la hora de elegir el objetivo de una aplicación de visión artificial, hay que tener en cuenta el sensor que se va a utilizar. Los tamaños del sensor y de los píxeles son de extrema importancia en el proceso de selección. El objetivo debe poder iluminar correctamente toda la zona del sensor para evitar el sombreado y el viñeteado.
Los objetivos ideales producen imágenes que se ajustan perfectamente al objeto capturado, incluidos todos los detalles y variaciones de brillo. Los objetivos estándar pueden tener cerca de un megapíxel en distancias focales fijas de 4,5 a 100 mm. Los objetivos macro están optimizados para enfocar de cerca. Al seleccionar el objetivo adecuado para una aplicación, los diseñadores usan 3 factores para calcular la distancia de funcionamiento necesaria: la distancia focal, la longitud del objeto inspeccionado y el tamaño del sensor.
Algunos de los casos de uso/escenarios de aplicación
Los sistemas de visión artificial en el sector de alimentos y bebidas se usan de forma destacada en las operaciones de empacado y embotellado. Es probable que los sistemas de visión artificial experimenten un crecimiento significativo en los sectores farmacéutico y químico, de impresión y etiquetado, y en otros nichos, como la agricultura, el procesamiento de caucho y plástico, los paneles solares, la maquinaria y el equipamiento, la seguridad y la vigilancia. El mercado se ha dividido en los segmentos de control de calidad e inspección, posicionamiento y orientación, medición e identificación. Los sistemas se usan ampliamente para escanear e identificar etiquetas, códigos de barras y textos, en especial en el sector del empaquetado. Esto automatiza las actividades de empaquetado, con lo que se ahorra tiempo, se evitan errores humanos y se aumenta la eficacia.
Las soluciones de visión artificial hacen que los procesos de fabricación sean más eficientes y competitivos. Las cámaras de visión artificial funcionan a la perfección en una amplia gama de entornos de fabricación. La Figura 2 a continuación muestra el bloque de aplicación típico.