Estamos viviendo una época con un crecimiento exponencial en la generación y captura de datos geográficos. Estas enormes cantidades de datos, así como las todavía mayores que se van a crear en el futuro, acarrean la necesidad de contar con sistemas de gestión de datos mejorados. 

El informe «Tendencias a futuro en la gestión de información geoespacial», elaborado por un comité de expertos de la UN-GGIM señala como la necesidad de abordar este problema impulsará una de las principales tendencias en los próximos cinco a diez años en el sector geoespacial, incrementando el uso y la dependencia de las tecnologías Big Data, que faciliten el análisis de grandes cantidades de información dentro de escalas de tiempo útiles y prácticas.

Big Data se ha convertido en un término de moda y, como suele suceder en estos casos, no siempre se usa adecuadamente. En principio Big Data es la tecnología para tratar gran cantidad de información y gran cantidad quiere decir que esa información no puede ser manejada con las herramientas tradicionales herramientas de gestión de bases de datos.

Sin embargo, el concepto no hace referencia simplemente al tamaño de la información, como su nombre podría indicar, sino también a la variedad del contenido y a la velocidad con la que los datos se generan, almacenan y analizan. Estas dimensiones son las tres «V» que definen el Big Data, es decir volumen, velocidad y variedad.

Volumen

El volumen de los datos almacenados en las empresas ha pasado de ocupar megabytes y gigabytes a petabytes. Como dice Juan Marín Otero, director de Tecnología de Boundless, en un correo de la lista SIG de RedIris (requiere registro gratuito) «una imagen Landsat no es Big Data, todo el histórico del Landsat 7, si». También son Big Data la información de todas las transacciones electrónicas que se producen en un año en el mundo (420.000 millones de pagos electrónicos) o los datos que genera Twitter al día (8 terabytes al día u 80MB por segundo), por citar dos fuentes de datos que el Big Data nos permite incorporar a diversos tipos de estudios.

Velocidad

Las necesidades de hoy en día no son las necesidades de años atrás. La urgencia de nuestro modo de vida ha cambiado la forma en que miramos a los datos, la forma en la que valoramos su vigencia. Ahora necesitamos los datos en tiempo real y las herramientas tradicionales ya no sirven. Las aplicaciones que procesan los datos de por ejemplo los satélites de observación en la mitigación de riesgos y crisis humanitarias o las que trabajan la información generada por el cada vez mayor número de sensores presente en las smart cities, requieren que la velocidad de lectura, análisis y respuesta sea lo mayor posible, pasando de plazos preestablecidos o periódicos a respuestas en tiempo real. Pasamos de bases de datos estructuradas SQL (Oracle, MySQL, PostgreSQL, DB2...) a soluciones NoSQL, nuevos sistemas de gestión de datos que utilizan infraestructuras de supercomputación altamente distribuidas.

Variedad

Gran parte de la información que se genera hoy en día se corresponde con datos no estructurados y las bases de datos relacionales tradicionales no son adecuadas para el manejo de esta información. Fotos, audio, streaminng, sensores, etc. Una base de datos NoSQL puede trabajar mejor con esta variedad de datos, especialmente cuando hablamos de tal cantidad de información. La mayoría de ellas tienen un soporte nativo para operaciones geoespaciales bastante limitado, y a día de hoy se requieren desarrollos sobre estas soluciones.

Big Data en el sector geoespacial

En momentos de crisis aumenta la necesidad de mejorar la toma de decisiones. Para ello es necesario gestionar eficientemente la información, estructurada y no estructurada, proveniente de distintas fuentes. Sectores como la banca, la industria energética o las telecomunicaciones son los que con mayor rapidez están adoptando herramientas que les permiten extraer conocimiento de sus datos y en palabras de Marwa Mabrouck, product manager de Esri, «quizá el mayor recurso aún por explotar de las Tecnologías de la Información es la posibilidad de analizar y visualizar espacialmente el Big Data».

Shanghái. Foto de Jo Sau en Flickr

La primera consecuencia de esta tendencia es para Marín Otero la paulatina perdida de importancia del SIG de escritorio tradicional: «de lo que se trata es de aplicar conceptos de computación distribuida para alcanzar rendimientos que solo un cluster de servidores puede dar. Bajo esta premisa el SIG de escritorio se va a quedar muy limitado». Se buscan «servicios web que ofrezcan esta potencia, por unos pocos dólares al mes, gracias a las economías de escala del cloud computing». Este sería unos de los motivos de la importancia que Esri esta dando a ArcGIS Online, pues significa el paso del SIG de escritorio tal como lo hemos conocido hasta hoy, a un entorno web, que abre nuevas posibilidades en la resolución de problemas, impensables con un solo puesto de trabajo. 

En Boundless, por ejemplo, han hecho pruebas en una base de datos con dos mil millones de geometrías, visualizando el contenido filtrado con una compleja consulta espacio-temporal en menos de dos segundos en un visor web. Utilizaron un cluster de 20 nodos y la información estaba distribuida uniformemente entre todas estas máquinas. Esto da el equivalente a 100 CPU trabajando en paralelo sobre una cantidad ingente de datos.

Herramientas Big Data con componente espacial

Teledetección, sensores urbanos, redes sociales... Cada vez es mayor el volumen de información geográfica que existe y la necesidad de analizarla y visualizarla en tiempo real. ¿Que herramientas se están utilizando para analizar y visualizar la componente espacial en Big Data?. Técnicas como las unidades de procesamiento gráfico (conocidas como GPUs por sus siglas en inglés) o las bases de datos NoSQL son fundamentales en los nuevos análisis de datos, sistemas escalables a nivel masivo, distribuidos para el procesamiento no-estructurado y semiestructurado de datos. Actualmente hay 4 soluciones NoSQL, todas Open Source y desarrolladas sobre Java: 

  • GeoTrellis es un motor de alto rendimiento para realizar operaciones de geoprocesamiento. El objetivo del proyecto es transformar la interacción del usuario con los datos geoespaciales a partir del análisis geoespacial en tiempo real y aplicaciones web interactivas.
  • SpatialHadoop es una extensión del framework MapReduce para manejar datos espaciales en Apache Hadoop. Se trata de la segunda versión de CG_Hadoop.
  • Desarrollada por Boundless y CCRi, OpenGeo Suite con GeoMesa combina la gestión y publicación de datos geo (OpenGeo) con la potencia de análisis de Big Data (Geomesa) en la base de datos Apache Accumulo.
  • Quizá la herramienta más conocida al estar desarrollada por Esri, Gis Tools for Hadoop, esta formado por una serie de librerías y utilidades que conectan ArcGIS con el entorno Hadoop. Esto permite que los usuarios de ArcGIS exporten sus mapas en formato HDFS, el sistema de archivos nativo de Hadoop, y lo crucen con millones de entradas almacenadas en Hadoop. Los resultados pueden ser guardados directamente en la base de datos de Hadoop o llevados de vuelta a ArcGIS para un mayor nivel de geoprocesamiento y visualización.
 

Artículo basado en el correo-e enviado por Juan Marín Otero a la lista SIG de RedIris