El Monstruo del Data Lake

DataLake

El Monstruo del Data Lake

No hay en el mundo fortuna mayor, creo, que la incapacidad de la mente humana para relacionar entre sí todo lo que hay en ella. Vivimos en una isla de plácida ignorancia, rodeados por los negros mares de lo infinito, y no es nuestro destino emprender largos viajes. Las ciencias, que siguen sus caminos propios, no han causado mucho daño hasta ahora; pero algún día la unión de esos disociados conocimientos nos abrirá a la realidad, y a la endeble posición que en ella ocupamos, perspectivas tan terribles que enloqueceremos ante la revelación, o huiremos de esa funesta luz, refugiándonos en la seguridad y la paz de una nueva edad de las tinieblas.

La llamada de Cthulhu. H.P. Lovecraft

Si el Digital Big Data se está consolidando como tendencia, tal y como comentamos en un artículo previo, el Data Lake o lago de datos se posiciona como el sistema de almacenaje y, fundamentalmente, de explotación de los nuevos datos que forman parte del ecosistema de una compañía. El dato “clásico” y generado por sistemas propios, el tradicional DataWareHouse, se va enriqueciendo con datos generados en sistemas externos, en muchos casos, provenientes del mundo digital (datos de analítica digital, tweets en streaming, sensores digitales, etc.)  que, prácticamente, son volcados en tiempo real a nuevas arquitecturas de almacenamiento de información, generando lo que se ha pasado a denominar Data Lake.

Entre las principales motivaciones que pueden llevar a una compañía que base su estrategia en el Digital Big Data en desplegar un Data Lake  destacan las siguientes:

  •  Por un lado y, fundamentalmente, la necesidad de recoger y analizar todos los datos que se generan en su entorno, con el fin último de conocer y mejorar su customer journey. Si en el pasado sistemas de información del ámbito del Business Intelligence podían ser suficientes para obtener esta información, la irrupción del ecosistema digital, con sus webs, sus apps y sus redes sociales, obliga a evolucionar estos sistemas de información. Sólo, desde el paradigma creado por un Data Lake, es factible abordar el análisis de las interacciones de un cliente a través de diferentes canales desde una estrategia customer-centric o el análisis cruzado de los datos de primera y tercera parte en campañas de marketing para su optimización a través de modelos de atribución personalizados; por poner dos ejemplos.

 

  • El esquema tradicional de abordar el despliegue de un sistema de almacenaje e información cambia diametralmente. El coste, y por tanto, el valor del DataLake viene dado por su uso, es decir, la estructura de la BBDD no se define previamente y se alimenta bajo esta definición para luego ser consultada, es una vez creado el Data Lake y relacionados sus elementos entre sí, cuando se comienzan a analizar los datos allí recogidos. Es decir, el sistema de información toma valor por ser consultado y analizado, no por tener los datos almacenados. De esta forma diferentes modelos de análisis pueden ser aplicados, conviven diferentes objetivos de negocio asociados a diferentes estrategias de consulta y son múltiples los resultados que se pueden obtener, dando respuesta a diferentes necesidades desde diferentes ámbitos.

data lake

Imagen extraída de www.emc.com

  • La capacidad y agilidad para incorporar nuevas fuentes de datos al Data Lake. Esta funcionalidad, muy relacionada con la anterior, garantiza la escalabilidad de los sistemas de información de forma natural, pues está en su naturaleza el crecimiento. Un correcto diseño del Data Lake permitirá su crecimiento y aporte de valor de nuevas fuentes de datos que se consideren interesantes. A nivel técnico, quizás sea esta la mayor fortaleza del Data Lake, permitiendo incluso la entrada de datos en streaming.

 

  • Disponibilidad de diferentes y variadas técnicas de análisis de datos para ser desplegados sobre la inmensidad del Data Lake.  El clásico SQL o los modernos scripts de MapReduce pueden ser usados en técnicas analíticas.  De esta forma, no sólo conviven diferentes modelos de datos, sino que diferentes modelos de análisis pueden ser desplegados para analizar las relaciones existentes entre estos datos.

 

Si bien la estrategia para abordar la creación de un DataLake es compleja, daría para una serie de artículos al respecto y por tanto no entraremos en ella. Sí que quisiera destacar un riesgo, quizás un riesgo generado por los miedos provenientes de todo aquello que clásicamente ha rodeado el mundo de los lagos, con sus monstruos y mitos. Este riesgo no es otro que los resultados obtenidos no sean de nuestro agrado; ya nos advierte Lovecraft, en la cita que abre este post, de los peligros de asociar conocimientos.

Pongámonos en las siguientes situaciones,  ¿qué sucede si nuestro análisis del customer journey evidencia un fallo estratégico?, ¿cómo afrontar que el coste de generación de leads sea superior al del valor aportado por cliente?, ¿quién le explica al CMO que el modelo de atribución resultante nos dice que hemos errado nuestra campaña de marketing?, ¿dónde habían estado hasta ahora esos datos que por sí solos no resultaban especialmente atractivos pero ahora correlacionan con KPI’s estratégicos?, ¿por qué no habíamos hecho esto anteriormente?, etc.

Si nos vamos a adentrar en las oscuras y profundas aguas del lago, tenemos que estar preparados para recoger los preciosos tesoros que nos ofrecen los datos pero también para enfrentarnos a sus criaturas, que ojalá no nos haga ni enloquecer ni huir a las oscuridades de la ignorancia.  Dejemos que los monstruos del lago y los Cthulhus que se alimentan de nuestros miedos, sigan siendo mitos.

NOTA: Parte de las ideas y definiciones sobre el concepto de Data Lake se han extraído del  libro blanco de HortonWorks sobre este tema (enlace PDF ). Los miedos a inmensidades acuosas son fruto de la lectura de relatos de H.P. Lovecraft 

No hay comentarios

Envíanos tu comentario

uno × 2 =

¡Suscríbete a nuestra newsletter mensual Stay Sharp!

Para más información

CONTÁCTANOS