Es la principal conclusión de un estudio liderado por el ICM-CSIC que demuestra, por primera vez, cómo un robot submarino es capaz de aprender la trayectoria óptima para monitorizar el fondo marino y realizar el seguimiento de especies.

Un equipo liderado por el Institut de Ciències del Mar (ICM-CSIC) de Barcelona en colaboración con el Monterey Bay Aquarium Research Institute (MBARI) de California, la Universitat Politècnica de Catalunya (UPC) y la Universitat de Girona ha demostrado por primera vez que el aprendizaje por refuerzo profundo -es decir, una red neuronal que aprende la mejor acción a realizar en cada momento en base a una serie de recompensas- permite a los vehículos autónomos y robots submarinos localizar y hacer un seguimiento cuidadoso de objetos y animales marinos que se encuentran bajo el agua. Los detalles se recogen en un artículo publicado en la prestigiosa revista Science Robótics, la principal revista científica en el ámbito de la robótica.
En la actualidad, la robótica submarina se erige como una herramienta clave para mejorar el conocimiento de los océanos frente a las numerosas dificultades para explorarlos, con vehículos capaces de bajar hasta los 4.000 metros de profundidad. Además, los datos in-situ que proporcionan ayudan a complementar otros, como los obtenidos a través de los satélites. Esta tecnología permite estudiar fenómenos que pasan a pequeña escala, como por ejemplo la captura de CO2 por parte de organismos marinos, lo que contribuye a regular el cambio climático.
En concreto, este nuevo trabajo revela que el aprendizaje por refuerzo, muy utilizado en el ámbito del control y la robótica, así como en el desarrollo de herramientas relacionadas con el procesamiento del lenguaje natural como el ChatGPT, permite que los robots submarinos aprendan qué acciones deben realizar en cada momento para lograr un objetivo específico. Estas políticas de acción igualan, o incluso mejoran en determinadas circunstancias, los métodos tradicionales basados en un desarrollo analítico.
“Este tipo de aprendizaje nos permite entrenar una red neuronal para optimizar una tarea específica, lo que sería muy difícil de conseguir de otra forma. Por ejemplo, nosotros hemos podido demostrar que es posible optimizar la trayectoria de un vehículo para localizar y realizar un seguimiento de los objetos que se mueven debajo del agua”, explica Ivan Masmitjà, el autor principal del estudio, que ha trabajado a caballo entre el ICM-CSIC y el MBARI.
Esto “permitirá poder profundizar en el estudio de fenómenos ecológicos como la migración o movimiento a pequeña y gran escala de multitud de especies marinas utilizando robots autónomos. Además, estos avances harán posible la supervisión de otros instrumentos oceanográficos en tiempo real mediante una red de robots, donde unos pueden estar en superficie monitorizando y transmitiendo por satélite las acciones que realizan otras plataformas robóticas en el fondo del mar”, comenta el investigador del ICM-CSIC Joan Navarro, que también ha participado en el estudio.
Para la elaboración del trabajo, los autores utilizaron las conocidas como “técnicas de acústica de rango”, que permiten estimar la posición de un objeto teniendo en cuenta medidas de distancia tomadas en distintos puntos. Sin embargo, este hecho hace que la precisión en la localización del objeto dependa mucho del lugar donde se toman las medidas acústicas de rango. Por lo tanto, es aquí donde adquiere importancia la aplicación de la inteligencia artificial y, en concreto, el aprendizaje por refuerzo, que permite identificar los mejores puntos y, por ende, la trayectoria óptima que debe realizar el robot.
Las redes neuronales fueron entrenadas, en parte, utilizando el clúster de ordenadores del Barcelona Supercomputing Center (BSC-CNS), donde se encuentra el superordenador más potente de España y uno de los más potentes de Europa. "Esto permitió ajustar los parámetros de diferentes algoritmos de forma mucho más rápida que utilizando ordenadores convencionales", indica el Prof. Mario Martin de la UPC, del Departamento de Ciencias de la Computación de la UPC y autor del estudio.
Una vez entrenados, los algoritmos se probaron en diferentes vehículos autónomos, entre ellos el AUV el Sparus II desarrollado por VICOROB, en una serie de misiones experimentales desarrolladas en el puerto de Sant Feliu de Guíxols, en el Baix Empordà, y en la bahía de Monterey (California), en colaboración con la investigadora principal del Bioinspiration Lab del MBARI, Kakani Katija.
“Nuestro entorno de simulación incorpora la arquitectura de control de vehículos reales, lo que nos permitió implementar los algoritmos de forma eficaz antes de ir al mar”, comenta Narcís Palomeras, investigador de la UdG.
De cara a futuras investigaciones, el equipo estudiará la posibilidad de aplicar los mismos algoritmos para resolver misiones más complicadas. Por ejemplo, el uso de múltiples vehículos para localizar objetos, detectar frentes y termoclinas o el afloramiento de algas de forma cooperativa a través de técnicas de aprendizaje por refuerzo multi plataforma.
Esta investigación se ha llevado a cabo gracias a la prestigiosa beca Europea Marie Curie Individual Fellowship que ganó el investigador Ivan Masmitjà en 2020 y el proyecto BITER, financiado por el Ministerio de Ciencia e Innovación del Gobierno de España, que se encuentra actualmente en ejecución.