Cuando los robots aprenden a ver.
Tan fácil y tan difícil: los sistemas de procesamiento de imágenes dotan a las máquinas de la capacidad de ver. Pero se necesita algo más para identificar y comprender las cosas.
El robot se desplaza sobre una caja con bloques de construcción de colores de diferentes formas, coge deliberadamente un triángulo amarillo y lo deposita junto a la caja. Se trata de un proceso que difícilmente podría ser más fácil para un humano, pero que ha planteado grandes retos a los programadores de robots desde la década de 1980.
La recogida de contenedores, como se denomina, es una de las tareas más difíciles de la robótica. No es el hecho de recoger y depositar lo que plantea problemas. La dificultad estriba en reconocer los objetos sin clasificar. Esto se debe a que el robot carece de una de las capacidades humanas más importantes: la visión.
¿Ver sin ojos?
El diccionario alemán Duden define la visión como «el acto de percibir (mediante el órgano sensorial ojo)». ¿Cómo va a utilizar una máquina esta capacidad si carece de este órgano sensorial? La solución se encuentra en los sistemas de procesamiento de imágenes. El procesamiento de imágenes funciona de forma muy similar a la visión humana: ni los humanos ni las máquinas ven realmente el objeto en sí, sino los reflejos de la luz que rebota en el objeto.
En los humanos, el iris, la pupila y la retina agrupan y enfocan la luz y la presentan en colores. Esta información se transmite al cerebro. En una máquina, estos pasos los realizan cámaras, aperturas, cables y unidades de procesamiento.
La percepción es la diferencia.
«A pesar de las muchas similitudes entre la visión humana y la tecnológica, existen grandes diferencias entre ambos mundos», explica Anne Wendel, Directora del Grupo de Visión Artificial de la asociación VDMA Robotics + Automation.
«La mayor dificultad es la comprensión e interpretación de los datos de las imágenes. A lo largo de su vida, los seres humanos aprenden el significado de los objetos y situaciones que perciben con sus ojos a diario y los filtran de forma intuitiva en su mayor parte. En cambio, un sistema de procesamiento de imágenes sólo identifica correctamente los objetos si ha sido previamente programado o entrenado». El cerebro de un niño pequeño puede distinguir entre manzanas y peras con la misma rapidez que entre un gato y un perro. La misma tarea es muy difícil para un sistema tecnológico.
El aprendizaje profundo ayuda al reconocimiento.
Para poder identificar correctamente los objetos, existen algoritmos de software para una amplia gama de tareas diferentes. Para programarlos correctamente, los desarrolladores de sistemas de procesamiento de imágenes deben saber de antemano lo que el sistema tendrá que conseguir posteriormente para que se diseñe en consecuencia.
«El aprendizaje profundo -el uso de redes neuronales artificiales- permite clasificar las imágenes con mejores tasas de éxito que los métodos anteriores y puede ser de ayuda en este caso», afirma Wendel. Se pueden conseguir buenos resultados, sobre todo cuando se trata de aplicaciones estándar. Sin embargo, se necesita una gran cantidad de material de imagen, normalmente mucho más de lo que proporciona el proceso de producción, sobre todo de piezas defectuosas.
Derivar acciones de la información.
Según el experto en visión de KUKA, Sirko Prüfer, la combinación de procesamiento de imágenes y robótica va un paso más allá: «Implicamos activamente al robot en el llamado «bucle de percepción-acción». No nos basta con captar la información de la imagen. Nos preocupamos de qué acción puede derivarse de la información para el robot».En combinación con la movilidad, esto puede abrir nuevos campos de aplicación: desde la recolección robotizada de variedades de frutas y verduras muy sensibles hasta aplicaciones en el sector asistencial que requieren un reconocimiento exhaustivo de una habitación.
Otro gran tema del futuro es el de la «visión integrada», es decir, la incorporación directa del procesamiento de imágenes en los dispositivos finales. Un ejemplo son los sistemas de asistencia en los coches y la conducción autónoma, que son imposibles sin sistemas de visión integrados.
La visión integrada se está abriendo paso en campos de aplicación que antes no podían aprovecharse con cámaras inteligentes o sistemas basados en PC. La creación de valor se está desplazando aún más del hardware al software.
Una cuestión de protección de datos.
Tanto si se trata de bin picking, como de cosecha automatizada o del uso de la visión embebida, todas estas aplicaciones requieren un alto nivel de capacidad de procesamiento para la elaboración de imágenes. Los conceptos de Edge y Cloud Computing desempeñarán un papel fundamental en el futuro.
La protección y la seguridad de los datos son cuestiones que se plantean aquí, y en las que el experto en procesamiento de imágenes Wendel ve desafíos: «Como en muchos otros ámbitos de la producción, hay una cuestión fundamental: ¿A quién pertenece la red? ¿Y los datos? ¿Y la reproducción condensada de los datos?».
Se trata de un ámbito que aún está por aclarar. Los retos demuestran hasta qué punto la visión y el juicio humanos siguen siendo superiores a sus homólogos tecnológicos. Aunque las soluciones de recogida de basura mejoren constantemente: no hay nada que sustituya al ojo humano.