big data Tag

conversaciones-2

People-Based Marketing y Big Data

Tesis 1. Markets are conversations  (Manifiesto Cluetrain)

Hace 19 años se publicó uno de los manifiestos más lúcidos de cuantos ha dado Internet, me refiero al Manifiesto ClueTrain o Manifiesto del Tren de Pistas o Claves. En un formato de 96 tesis anticipó, de una forma muy clarividente, la revolución que supondría Internet a empresas y consumidores en su forma de interactuar y comunicarse.

La primera de esa tesis abre este post. Los mercados son conversaciones. Y nos lanzamos a conversar… y hemos convertido la conversación en una espacie de debate a gritos intentando llevar la atención del consumidor hacia nuestra marca. LEER MÁS

0
0
top-post-2018-destacada-web

Top post Blogs Merkle | DIVISADERO 2018

Como venimos haciendo en los últimos años, desde Merkle | DIVISADERO publicamos un recopilatorio de aquellos contenidos que más interacción han recibido durante el año pasado en nuestros blogs, Analítica Web y el blog de Merkle | DIVISADERO. Publicaciones relacionadas con la industria, herramientas, analítica digital, big data, programática y otras diversas temáticas relevantes y de actualidad a las que hemos dedicado unas líneas durante todo el año 2018. Reflexiones escritas por cada uno de los profesionales de la compañía que hacen que día a día nos posicionemos como líderes de conocimiento en el sector.

LEER MÁS

0
0
ETL

ETL: up to date

¿Cómo puede ocurrir que tengamos tanta información y sepamos tan poco?
— Noam Chomsky

 

Es fácil ponerse creativo a la hora de pensar en los insights que extraemos de nuestros datos, pensar en esa información que se obtiene de cruzar unas fuentes con otras y, a su vez, con datos propios. El problema fundamental es que hay que desplegar una ETL –Extracción de datos de una fuente, Transformación o formateo de los mismos y Carga en otro destino– para ingerir esos datos, montar un Datalake y, después, mantener ambos en funcionamiento.

Llevamos programando tareas ETL desde tiempos inmemoriales. Al principio aprendimos a hacer muescas en palos para contar las reses de una manada, transportábamos la información del mundo real al palo. Tiempo después recolectamos datos de agrimensura y crecidas del Nilo para estimar la cuantía de las cosechas. A día de hoy aplicamos esta técnica extensivamente. A continuación veremos diferentes enfoques que podemos tener al respecto.

Delegar o Gestionar
Trasladándonos ahora a los alrededores del presente más inmediato, las herramientas que tenemos a nuestra disposición para esta tarea son un tanto diferentes. En lugar de un bifaz o una lasca deberemos elegir primero si queremos hacernos cargo de los entresijos de este proceso o, por el contrario, delegarlo. En este segundo caso, también habrá que decidir en qué grado delegar.

 

ETLaaS (ETL as a Service)

Hay herramientas que proveen ya esta funcionalidad. Teradata, Informática, Pega y otras compañías proveen este tipo de servicios. Pero como empresas que son, lo hacen a un precio. El sufijo “aaS”, tan popular últimamente, indica que no tenemos que inmovilizar capital en forma de máquina para hacer funcionar nuestra ETL, sino que otra persona posee esa máquina y nos presta un servicio con ella. Un ejemplo de estas serían las mencionadas antes Teradata e Informática que no requieren excesivo conocimiento técnico para ser operadas.

 

CaaS (Cloud as a Service)

Otro enfoque sería utilizar los módulos ya disponibles de una cloud para implementar cada una de las tres fases (Extracción, Transformación y Carga). En DIVISADERO utilizamos extensivamente Google Cloud que tiene diferentes herramientas en función de cómo queramos implementar cada fase.

  1. Extracción: Storage nos proporciona almacenamiento escalable y procesos programables de ingesta. Algo que hace 10 años requería un script ejecutado periódicamente empleando Cron y Rsync (herramienta para transferir datos), ¡o incluso ejecutado a mano!
  2. Transformación: con cada archivo nuevo se dispara un mensaje en PubSub. En ese momento se dispara una Cloud Function que nos permite, preprocesar si el dato es ligero, o disparar un proceso más intensivo del entorno GCP (AutoML, un trabajo Spark, un trabajo Dataflow/Beam).
  3. Carga: una vez terminado, podemos insertar el dato en nuestro Datalake (BigQuery si es estructurado o Datastore sí no).

 

Lo interesante de esta aproximación es que, aunque la tarea de carga sea síncrona (batch), todo el proceso dentro de nuestra nube ocurre en streaming. De esta forma si ocurriese un error al procesar algún archivo no afectaría al resto del batch, es más fácil de escalar y por tanto los costes se ajustan mucho más al uso que se le da, y el dato a la salida es más fresco.

Como alternativa GCP cuenta desde hace poco tiempo con Airflow semi-gestionado. Una herramienta para la creación y gestión de ETLs en batch de código abierto que se ha constituido últimamente como estándar de facto.

Interfaz de Airflow

A modo de nota a futuro, Google ha liberado CRMint. Una herramienta que en apariencia es similar a Airflow pero que podría ser operada fácilmente sin necesidad de programar ninguna ETL.

 

PaaS (Platform as a Service)

Esta aproximación cuenta un menor nivel de abstracción, se asemeja más a lo que se vendría ejecutando tradicionalmente. La diferencia radica en que no nos haremos cargo de la infraestructura, eliminando así la capa de IT. Podríamos considerar dos opciones en función del nivel de complejidad de la tarea.

  • Bajo: se pueden suplir tareas sencillas desarrollando un script en local, haciendo que se repita empleando el cron (planificador de tareas de un ordenador) de un VPS (Servidor Privado Virtual, lo que llamaríamos una máquina virtual en la nube). Como ventajas, el tiempo de implementación depende únicamente del de desarrollo del script. El inconveniente es que si queremos algún tipo de reporting sobre su ejecución se deberá construir ad-hoc.
  • Alto: como mencionaba antes, Airflow se ha convertido en una suerte de estándar en cuanto a lo que automatización de tareas y ETLs se refiere. Se puede ejecutar en un VPS e ir añadiendo potencia según sea necesario por medio de workers, o incluso configurar algún tipo de auto-escalado.

 

Sin este trabajo previo, estaremos limitados a los análisis por fuente. Remitiéndome a la cita del principio, tendremos toda la información pero no podremos “conocerla”.

*Fuente de las imágenes: Freepick (principal) y Airflow.

0
0
paper-big-data-discovery-advanced-analytics-compilation

[PAPER] Big Data Discovery: advanced analytics compilation

Hoy en día, nos encontramos ante un prometedor escenario en el que confluyen las necesidades de mejora continua de mercados y compañías, con las infinitas posibilidades que ofrece el procesado matemático de cantidades ingentes de datos. Estando lejos de encontrarnos con una crisis de fundamentos en el Big Data, y con el mismo espíritu de nuestros predecesores, desde Merkle DIVISADERO, y en colaboración con Merkle Aquila, queremos compartir esta selección de artículos con nuestro enfoque sobre el Big Data y nuestra visión del mercado.

LEER MÁS

0
0
Biblioteca-machine-learning

Ventaja competitiva de tener un sistema de recomendación

Imagina esta situación: has estado muy ocupado y hace meses que no lees un libro. Te gustaría recuperar el hábito lector, pero la verdad es que estás sin ideas. Así que:

1- Escribes a una amiga con la que compartes gustos, para saber qué ha pasado por sus manos últimamente.

2- Controlas tres o cuatro autores que no te suelen fallar, así que echas un vistazo en Internet para ver si han sacado algo nuevo.

3- Te apetece que te sorprendan, por lo que decides elegir (casi al azar) entre el top five que viene en el periódico del fin de semana.

Ahora imagina que tienes un asistente-librero que valora, de forma conjunta, los gustos de personas afines a ti y las características de tus lecturas más apreciadas. También le añade la medida justa de novedad y sorpresa para seleccionar, de entre todos los posibles, el libro que justo te apetece leer en este momento. ¿Suena bien, no?

LEER MÁS

0
0
Cloud Solutions

Cloud Solutions: machine learning en marketing y Recursos Humanos

En los últimos años hemos vivido una gran democratización del Big Data, impulsada principalmente por el auge de tecnología en la nube y la complejidad de las estrategias de inteligencia digital. En este sentido, los principales players de MarTech han puesto a nuestro alcance sus mejores vástagos (Google con Cloud Platform, Amazon con Web Services, Microsoft con Azure, etc.), suites que funcionan como un big data as a service en la nube con todos los beneficios que esto conlleva: son plataformas sencillas, de fácil manejo, muy personalizables, y con una gran flexibilidad de almacenamiento y explotación de datos.

¿Qué significa esto? Que tenemos a nuestro alcance todo el poder del Big Data, de forma que ya no dependemos directamente de tecnología de sistemas o de business intelligence, para beneficiarnos de esa computación avanzada. Ese tenemos hace referencia, principalmente, a los que trabajamos en el sector del Marketing y la comunicación digital, pero no exclusivamente. Hay otros sectores dentro de las grandes empresas que se pueden beneficiar de esta disrupción, como es el caso de Recursos Humanos y lo que se conoce como People Analytics (toma de decisiones relacionadas con la gestión del talento, basadas en datos y modelos matemáticos). Hoy vamos a reflexionar sobre cómo es este impacto del cloud en la toma de decisiones data driven haciendo una analogía entre Marketing y RRHH.

LEER MÁS

0
0
MVP_Basket

Producto Mínimo Viable en proyectos Big Data

Quien con monstruos lucha cuide de convertirse a su vez en monstruo. Cuando miras largo tiempo a un abismo, el abismo también mira dentro de ti.
F. Nietzsche “Más allá del bien y del mal”

Abordar un proyecto Big Data implica Big Challenges, todo es BIG en este nuevo paradigma

 

Por supuesto, contamos con grandes cantidades de datos, que requieren grandes infraestructuras de IT para almacenarlas. Sin olvidarnos del gran esfuerzo que implica el aprovisionamiento de estos datos, cada uno generado en diferentes silos de la empresa, con su propio formato, su granularidad, su mayor o menor estructuración y, la mayor parte de las veces, sin documentación sobre cómo se genera, periodicidad, etc. El reto de convertir DATA into KNOWLEDGE requiere, también, de un gran equipo de Data Scientist y de gran capacidad de computación para atacar, procesar y modelizar los inmensos datasets para dar respuesta a los objetivos del proyecto (porque los objetivos se han definido antes de lanzar el proyecto, ¿verdad?)

LEER MÁS

2
0
Big Data

Infografía Big Data – Banco Sabadell & DIVISADERO

Seguro que has oído hablar de Big Data, pero ¿sabes qué es y cómo te afecta?

En las últimas semanas, hemos colaborado con el Banco Sabadell en la elaboración de una infografía completa sobre este tema. El documento se inicia con una primera aproximación al concepto en la que se recoge una introducción, qué es, a qué hace referencia, etc. Asimismo, se exponen las 4 V´s del Big Data (Volumen, Variedad, Velocidad y Veracidad) desgranando cada una de ellas.

 

Ver infografía

LEER MÁS

0
0

¡Suscríbete a nuestra newsletter mensual Stay Sharp!

Para más información

CONTÁCTANOS