big data Tag

ETL

ETL: up to date

¿Cómo puede ocurrir que tengamos tanta información y sepamos tan poco?
— Noam Chomsky

 

Es fácil ponerse creativo a la hora de pensar en los insights que extraemos de nuestros datos, pensar en esa información que se obtiene de cruzar unas fuentes con otras y, a su vez, con datos propios. El problema fundamental es que hay que desplegar una ETL –Extracción de datos de una fuente, Transformación o formateo de los mismos y Carga en otro destino– para ingerir esos datos, montar un Datalake y, después, mantener ambos en funcionamiento.

Llevamos programando tareas ETL desde tiempos inmemoriales. Al principio aprendimos a hacer muescas en palos para contar las reses de una manada, transportábamos la información del mundo real al palo. Tiempo después recolectamos datos de agrimensura y crecidas del Nilo para estimar la cuantía de las cosechas. A día de hoy aplicamos esta técnica extensivamente. A continuación veremos diferentes enfoques que podemos tener al respecto.

Delegar o Gestionar
Trasladándonos ahora a los alrededores del presente más inmediato, las herramientas que tenemos a nuestra disposición para esta tarea son un tanto diferentes. En lugar de un bifaz o una lasca deberemos elegir primero si queremos hacernos cargo de los entresijos de este proceso o, por el contrario, delegarlo. En este segundo caso, también habrá que decidir en qué grado delegar.

 

ETLaaS (ETL as a Service)

Hay herramientas que proveen ya esta funcionalidad. Teradata, Informática, Pega y otras compañías proveen este tipo de servicios. Pero como empresas que son, lo hacen a un precio. El sufijo “aaS”, tan popular últimamente, indica que no tenemos que inmovilizar capital en forma de máquina para hacer funcionar nuestra ETL, sino que otra persona posee esa máquina y nos presta un servicio con ella. Un ejemplo de estas serían las mencionadas antes Teradata e Informática que no requieren excesivo conocimiento técnico para ser operadas.

 

CaaS (Cloud as a Service)

Otro enfoque sería utilizar los módulos ya disponibles de una cloud para implementar cada una de las tres fases (Extracción, Transformación y Carga). En DIVISADERO utilizamos extensivamente Google Cloud que tiene diferentes herramientas en función de cómo queramos implementar cada fase.

  1. Extracción: Storage nos proporciona almacenamiento escalable y procesos programables de ingesta. Algo que hace 10 años requería un script ejecutado periódicamente empleando Cron y Rsync (herramienta para transferir datos), ¡o incluso ejecutado a mano!
  2. Transformación: con cada archivo nuevo se dispara un mensaje en PubSub. En ese momento se dispara una Cloud Function que nos permite, preprocesar si el dato es ligero, o disparar un proceso más intensivo del entorno GCP (AutoML, un trabajo Spark, un trabajo Dataflow/Beam).
  3. Carga: una vez terminado, podemos insertar el dato en nuestro Datalake (BigQuery si es estructurado o Datastore sí no).

 

Lo interesante de esta aproximación es que, aunque la tarea de carga sea síncrona (batch), todo el proceso dentro de nuestra nube ocurre en streaming. De esta forma si ocurriese un error al procesar algún archivo no afectaría al resto del batch, es más fácil de escalar y por tanto los costes se ajustan mucho más al uso que se le da, y el dato a la salida es más fresco.

Como alternativa GCP cuenta desde hace poco tiempo con Airflow semi-gestionado. Una herramienta para la creación y gestión de ETLs en batch de código abierto que se ha constituido últimamente como estándar de facto.

Interfaz de Airflow

A modo de nota a futuro, Google ha liberado CRMint. Una herramienta que en apariencia es similar a Airflow pero que podría ser operada fácilmente sin necesidad de programar ninguna ETL.

 

PaaS (Platform as a Service)

Esta aproximación cuenta un menor nivel de abstracción, se asemeja más a lo que se vendría ejecutando tradicionalmente. La diferencia radica en que no nos haremos cargo de la infraestructura, eliminando así la capa de IT. Podríamos considerar dos opciones en función del nivel de complejidad de la tarea.

  • Bajo: se pueden suplir tareas sencillas desarrollando un script en local, haciendo que se repita empleando el cron (planificador de tareas de un ordenador) de un VPS (Servidor Privado Virtual, lo que llamaríamos una máquina virtual en la nube). Como ventajas, el tiempo de implementación depende únicamente del de desarrollo del script. El inconveniente es que si queremos algún tipo de reporting sobre su ejecución se deberá construir ad-hoc.
  • Alto: como mencionaba antes, Airflow se ha convertido en una suerte de estándar en cuanto a lo que automatización de tareas y ETLs se refiere. Se puede ejecutar en un VPS e ir añadiendo potencia según sea necesario por medio de workers, o incluso configurar algún tipo de auto-escalado.

 

Sin este trabajo previo, estaremos limitados a los análisis por fuente. Remitiéndome a la cita del principio, tendremos toda la información pero no podremos “conocerla”.

*Fuente de las imágenes: Freepick (principal) y Airflow.

0
0
paper-big-data-discovery-advanced-analytics-compilation

[PAPER] Big Data Discovery: advanced analytics compilation

Hoy en día, nos encontramos ante un prometedor escenario en el que confluyen las necesidades de mejora continua de mercados y compañías, con las infinitas posibilidades que ofrece el procesado matemático de cantidades ingentes de datos. Estando lejos de encontrarnos con una crisis de fundamentos en el Big Data, y con el mismo espíritu de nuestros predecesores, desde Merkle DIVISADERO, y en colaboración con Merkle Aquila, queremos compartir esta selección de artículos con nuestro enfoque sobre el Big Data y nuestra visión del mercado.

LEER MÁS

0
0
Biblioteca-machine-learning

Ventaja competitiva de tener un sistema de recomendación

Imagina esta situación: has estado muy ocupado y hace meses que no lees un libro. Te gustaría recuperar el hábito lector, pero la verdad es que estás sin ideas. Así que:

1- Escribes a una amiga con la que compartes gustos, para saber qué ha pasado por sus manos últimamente.

2- Controlas tres o cuatro autores que no te suelen fallar, así que echas un vistazo en Internet para ver si han sacado algo nuevo.

3- Te apetece que te sorprendan, por lo que decides elegir (casi al azar) entre el top five que viene en el periódico del fin de semana.

Ahora imagina que tienes un asistente-librero que valora, de forma conjunta, los gustos de personas afines a ti y las características de tus lecturas más apreciadas. También le añade la medida justa de novedad y sorpresa para seleccionar, de entre todos los posibles, el libro que justo te apetece leer en este momento. ¿Suena bien, no?

LEER MÁS

0
0
Cloud Solutions

Cloud Solutions: machine learning en marketing y Recursos Humanos

En los últimos años hemos vivido una gran democratización del Big Data, impulsada principalmente por el auge de tecnología en la nube y la complejidad de las estrategias de inteligencia digital. En este sentido, los principales players de MarTech han puesto a nuestro alcance sus mejores vástagos (Google con Cloud Platform, Amazon con Web Services, Microsoft con Azure, etc.), suites que funcionan como un big data as a service en la nube con todos los beneficios que esto conlleva: son plataformas sencillas, de fácil manejo, muy personalizables, y con una gran flexibilidad de almacenamiento y explotación de datos.

¿Qué significa esto? Que tenemos a nuestro alcance todo el poder del Big Data, de forma que ya no dependemos directamente de tecnología de sistemas o de business intelligence, para beneficiarnos de esa computación avanzada. Ese tenemos hace referencia, principalmente, a los que trabajamos en el sector del Marketing y la comunicación digital, pero no exclusivamente. Hay otros sectores dentro de las grandes empresas que se pueden beneficiar de esta disrupción, como es el caso de Recursos Humanos y lo que se conoce como People Analytics (toma de decisiones relacionadas con la gestión del talento, basadas en datos y modelos matemáticos). Hoy vamos a reflexionar sobre cómo es este impacto del cloud en la toma de decisiones data driven haciendo una analogía entre Marketing y RRHH.

LEER MÁS

0
0
MVP_Basket

Producto Mínimo Viable en proyectos Big Data

Quien con monstruos lucha cuide de convertirse a su vez en monstruo. Cuando miras largo tiempo a un abismo, el abismo también mira dentro de ti.
F. Nietzsche “Más allá del bien y del mal”

Abordar un proyecto Big Data implica Big Challenges, todo es BIG en este nuevo paradigma

 

Por supuesto, contamos con grandes cantidades de datos, que requieren grandes infraestructuras de IT para almacenarlas. Sin olvidarnos del gran esfuerzo que implica el aprovisionamiento de estos datos, cada uno generado en diferentes silos de la empresa, con su propio formato, su granularidad, su mayor o menor estructuración y, la mayor parte de las veces, sin documentación sobre cómo se genera, periodicidad, etc. El reto de convertir DATA into KNOWLEDGE requiere, también, de un gran equipo de Data Scientist y de gran capacidad de computación para atacar, procesar y modelizar los inmensos datasets para dar respuesta a los objetivos del proyecto (porque los objetivos se han definido antes de lanzar el proyecto, ¿verdad?)

LEER MÁS

2
0
Big Data

Infografía Big Data – Banco Sabadell & DIVISADERO

Seguro que has oído hablar de Big Data, pero ¿sabes qué es y cómo te afecta?

En las últimas semanas, hemos colaborado con el Banco Sabadell en la elaboración de una infografía completa sobre este tema. El documento se inicia con una primera aproximación al concepto en la que se recoge una introducción, qué es, a qué hace referencia, etc. Asimismo, se exponen las 4 V´s del Big Data (Volumen, Variedad, Velocidad y Veracidad) desgranando cada una de ellas.

 

Ver infografía

LEER MÁS

0
0
Evento-Big-Data-Spain-Destacado

Big Data: listos para pasar a la acción

Hace dos semanas asistimos al 4º encuentro anual de Big Data Spain, celebrado en Madrid. Durante dos intensos días, ponentes de talla mundial como Paco Nathan (O’Reilly), Kartik Paramasivam (Linkedin), Jason Sundram (Facebook) o William Vambenepe (Google) nos hablaron del papel que tiene el Big Data en sus compañías y de los desafíos técnicos que presenta su implantación.

logoBigDataConferenceUna cosa hemos sacado en claro: con el viraje de las compañías a una perspectiva data-driven, el tiempo del análisis per se ha pasado.Tenemos que integrar los datos en nuestro día a día, en la toma de decisiones: ya no se trata de analizar para entender qué ha pasado y cómo podemos mejorar, se trata de analizar y actuar.

El procesamiento en tiempo real ocupó, obviamente, un lugar destacado. Se presentaron diferentes productos y también algunas herramientas open source para su integración en los procesos de las empresas. Llama la atención la diversidad de disciplinas en las que tiene cabida este tipo de análisis, muchas veces de la mano del creciente “internet de las cosas”: desde la investigación clínica a la astronomía, o la detección del fraude en compañías de seguros.

LEER MÁS

0
1
Big Data

La transformación digital será a través del Digital Big Data o no será

Podemos asegurar, sin riesgo a equivocarnos, que después del Gin Tonic, el Big Data es uno de los términos más populares de nuestros tiempos. Tanto es así que se hace necesario usar Big Data para procesar toda la información que surge en torno al propio término, entrando así en un bucle perversamente recursivo.

El interés por esta “nueva” disciplina crece exponencialmente y si bien cada vez son más los ámbitos en los cuales se incorpora como elemento disruptivo, también es sorprendente su aparente ausencia en otros.

GRÁFICO GOOGLE TRENDS COMPARATIVA BIG DATA(azul)- GIN TONIC(rojo) ESPAÑA

GRÁFICO GOOGLE TRENDS COMPARATIVA BIG DATA(azul)- GIN TONIC(rojo) ESPAÑA

 

Industrias como la banca o los seguros llevan ya tiempo aplicando Big Data sobre sus datos, en procedimientos que recuerdan en gran medida al clásico “data mining”, del cual no es sino su evolución, para determinar desde el riesgo de conceder un préstamo a una persona que viva en una determinada localización geográfica  a la creación de perfiles de buenos conductores en base a datos financieros.

En otras disciplinas como aquellas asociadas a Open Data , Smart cities, healthcare, e-Goverment y el internet de las cosas, el Big Data se presenta como uno de los catalizadores para lanzar su desarrollo e implantación efectiva en la mejora de la calidad de vida de la ciudadanía.

LEER MÁS

0
3

¡Suscríbete a nuestra newsletter mensual Stay Sharp!

Para más información

CONTÁCTANOS