Tecnociencia

La gran nube de ciencia abierta europea

El aprendizaje automático (o machine learning) puede ayudar a mejorar la eficiencia de la agricultura. Esta técnica consiste en acumular grandes cantidades de datos e información para que un algoritmo extraiga patrones y vaya aprendiendo para ofrecer soluciones a problemas concretos. Es lo que ha hecho el Joint Research Centre de Ispra, en Italia, uno de los grandes nodos de investigación de la Comisión Europea.

Un equipo de este centro europeo ha recogido imágenes in situ (mediante muestreos profesionales, la aplicación Street View de Google y ciencia ciudadana), para caracterizar la adaptación de los cultivos a las estaciones. Toda esta información se introduce en el algoritmo para que aprenda ciertas características del comportamiento de los cultivos. De esta forma se podría prever el rendimiento de los cultivos o su vulnerabilidad a las heladas o a otro tipo de amenazas.

Para poder manejar toda esa gran cantidad de información, el equipo del Joint Research Center ha utilizado una plataforma de computación en la nube desarrollada por investigadores del CSIC en el Instituto de Física de Cantabria (IFCA). Se trata de la plataforma Deep Hybrid DataCloud que ofrece un amplio abanico de aplicaciones en investigación.

El proyecto Deep, finalizado en 2020, y su continuación, AI4EOSC proporcionan una plataforma de computación sobre la que desarrollar, de manera sencilla, aplicaciones de inteligencia artificial y aprendizaje automático.

La plataforma sirve, asimismo, como punto de colaboración para los investigadores dentro de la nube de ciencia abierta en Europa (European Open Science Cloud – EOSC). Ya se está aplicando de modo constante en campos tan diversos como la teledetección, cambio climático, ingeniería, logística, imagen médica o biodiversidad.

Estos proyectos tratan de hacer accesibles herramientas de aprendizaje automático y profundo, y facilitar su desarrollo a los científicos de datos. Ofrecen una serie de módulos diseñados para facilitar a la comunidad científica el desarrollo, uso y explotación de herramientas de análisis de datos, como las redes neuronales, el procesamiento en paralelo de grandes conjuntos de datos y el análisis de flujo de datos online.

Las técnicas de aprendizaje automático permiten que una máquina aprenda a realizar ciertas tareas directamente a partir de una gran cantidad de datos. Para este aprendizaje, uno de los modelos más utilizados son las llamadas redes neuronales artificiales (sistemas informáticos), inspiradas en el funcionamiento de las neuronas biológicas, y que se emplean para resolver problemas en inteligencia artificial.

A partir de un gran volumen de datos, estas redes pueden aprender a extraer conclusiones y a obtener modelos predictivos. En el campo del aprendizaje profundo, estas redes neuronales artificiales tienen un tamaño mayor y pueden resolver, a priori, problemas más complejos.

Tanto la técnica del aprendizaje automático, como la del profundo, están en la vanguardia de la inteligencia artificial, y son la base de herramientas que se están utilizando para lograr niveles muy altos de precisión en muchos campos de investigación.

El entrenamiento de un modelo de aprendizaje profundo es una tarea muy compleja y de gran intensidad computacional. Requiere que el usuario tenga una configuración completa que involucre un cierto hardware, los controladores adecuados, software dedicado y suficientes recursos de memoria y almacenamiento.

Estos proyectos de aprendizaje automático ofrecen una tecnología transparente y accesible para que el desarrollador de la aplicación, aunque no sea experto en computación, pueda concentrarse en la creación de un nuevo modelo o en aplicar un modelo pre-entrenado para trabajar con un conjunto de datos.

Los proyectos Deep Hybrid y AI4EOSC utilizan las infraestructuras de la European Open Science Cloud (EOSC) o Nube de Ciencia Abierta en Europa, lanzada por la Comisión Europea en 2018, que ofrece un entorno de computación y datos sin fronteras dentro del continente, de forma que los científicos puedan compartir, almacenar y reutilizar datos de investigación de forma abierta.

Fuente: CSIC