Por qué el Machine Learning no es la solución a tus problemas (de Big Data)

MachineLearning_BigData

Por qué el Machine Learning no es la solución a tus problemas (de Big Data)

Much of the current enthusiasm for big data focuses on technologies that make taming it possible […]. While those are important breakthroughs, at least as important are the people with the skill set (and the mind-set) to put them to good use

 Data Scientist: The Sexiest Job Of the 21th Century . T. Davenport (2012)

 

Sin duda, vivimos en tiempos mediatizados por tendencias, hashtags, influencers, gurús, etc.  que, de forma sistemática, van posicionando, entre los términos más cool, diferentes conceptos de los cuales parece que todo el mundo tiene que hablar, debatir y tuitear. Detrás de esta democratización del conocimiento hay una evidente banalización del mismo, generándose, en muchos casos, conversaciones, debates y tweets con mucho continente y muy poco contenido. Uno de estos términos es Machine Learning (ML), considerado como la tendencia estrella en Big Data para el 2017, que parece viene para resolver todos esos problemas que, hasta ahora, se están encontrando las compañías que han acometido este tipo de proyectos.  Sin ánimo de quitar importancia al ML como herramienta para afrontar análisis sobre grandes volúmenes de datos y sobre los excelentes resultados que se pueden obtener al aplicar estos algoritmos en concreto, sí que sería conveniente no dejarse llevar por las tendencias sin contar con una mínima estructura que nos permita afrontar con garantías los vaivenes y tendencias del mercado de lo hype.

Seguro que a estas alturas todo el mundo, en mayor o menor medida, conoce el término [para aquellos que quieran profundizar en el mismo en el blog analiticaweb.es hay varios artículos muy interesantes al respecto]. Como pinceladas, señalar que el ML surge a finales de los años 50 del siglo pasado y que consta de una serie de algoritmos y tácticas estadísticas que permiten hacer predicciones, segmentaciones, regresiones, etc. sobre datasets, con la peculiaridad que los modelos obtenidos tienen capacidad de entrenarse para probar cuan robustos son y de aprender (mejorar) al aplicarse sobre nuevos datos añadidos al dataset. Adicionalmente, han demostrado comportarse muy bien sobre grandes volúmenes de datos y es por eso que se llevan usando en data-mining desde hace mas de 30 años.  Por lo tanto, y como primera reflexión:  el Machine Learning es un viejoven pero a la inversa, no ha llegado para revolucionar el Big Data, ya estaba aquí antes y, probablemente, seguirá aquí cuando el Big Data (re)evolucione (al igual que paso con el data-mining).

Llegado a este punto, me atrevo a compartir algunos puntos de acción que, sinceramente, creo que sí te ayudarán a resolver tus problemas (con el Big Data). Nuevamente, no hay nada nuevo bajo el sol, simplemente aplicar metodologías ya conocidas y reconocidas por su efectividad; en este caso la Metodología CRISP (Cross Industry Standar Process) utilizada en data-mining.

 

Fuente: Wikipedia

 

Business Understanding. Sin lugar a dudas, la fase más importante de toda la metodología. Antes de nada, identifica qué problemas quieres resolver, qué objetivos pretendes alcanzar o qué mejoras quieres obtener. Solo a partir de una buena definición de los requerimientos de negocio, se podrá alcanzar el éxito en el proyecto (recuerda que es condición necesaria pero no suficiente) .  ¿Identificados? Sigamos adelante, pues.
Data Understanding. Básicamente, tenemos que identificar qué datos están disponibles, bajo qué formato, cuál es su disponibilidad, su frecuencia de actualización, catalogarlos y definir su estructura. Ahora bien, ¿estos datos nos pueden dar respuesta a las necesidades de negocio definidas anteriormente? Si no es así, o nos replanteamos estas necesidades de acuerdo al dato disponible o buscamos la forma de conseguirlo.
Data Preparation.  Una vez tenemos todos los datos identificados hay que prepararlos para el análisis, esto implica construir las estructuras Big Data de bases de datos, datalakes, etc. con sus Hadoops, sus Sparks, etc.  que permitan recoger, almacenar y actualizar el dato en base a sus características y las necesidades que hemos definido. Posteriormente, una vez integrados en la estructura Big Data, toca preparar, limpiar, metaetiquetar, transformar, relacionar, etc. estos datos para que, respondiendo a las necesidades de negocio que pretendemos cubrir, queden preparados para poder avanzar a la siguiente fase.
Modeling.  Ahora sí, ¡por fin! Ya podemos aplicar Machine Learning siempre y cuando sea el modelo que aplique para realizar el estudio estadístico. En este punto, quien tiene la potestad de decidir qué hacer es el Data Scientist. Déjalo, por tanto, disfrutar de su mundo de matemáticas, algoritmos, programación y demás abstracciones propias de sus conocimientos. Seguro que no te defrauda y hasta es posible que utilice algún algoritmo del Machine Learning, pero no se te olvide que hay muchos mas métodos y algoritmos.
Evaluation.  ¿Ha servido todo lo anterior para cubrir las necesidades definidas en la fase de Business Understanding?, ¿los resultados encontrados permiten inferir insights, definir acciones de mejora?, ¿tienen sentido o, por el contrario, no aportan nada? Responde estas preguntas antes de seguir adelante, quizá haya que volver a la casilla de salida y replanteárselo todo.
Deployment. Para mi el segundo punto más importante de toda la estrategia: ACTIVA EL DATO. Has realizado un gran esfuerzo para obtener unos resultados, es el momento de poner en valor el trabajo realizado. Actúa en consecuencia a los resultados obtenidos, difúndelos, activa palancas, integra el modelo obtenido en tus Sistemas de Información, conecta resultados con el DMP y activa tus audiencias, actualiza tu CRM con los nuevos cluster obtenidos, mejora tu compra de publicidad, plantéate nuevas preguntas y comienza de nuevo.

Como se puede comprobar, hay mucha vida mas allá del Machine Learning, no siendo este más que una de las piezas de una basto engranaje de procedimientos, metodologías, estrategias, tecnologías, herramientas y algoritmos que son, conjuntamente, quienes pueden dar solución a tus problemas… de Big Data.

2 Comments
  • Isaac González

    23 mayo, 2017 at 1:05 PM Responder

    Hola José Manuel,

    Estoy muy de acuerdo con tu reflexión. Creo que al final el constante intento por mantener arriba el Hype de los que nos dedicamos a esto acabará perjudicándonos.

    Hace unos años a todo lo que sea Analtyics se le empezó a llamar Big Data, y ahora como Big Data empieza a estar un poco manido se le cambia por Machine Learning, cuando, como muy bien dices Machine Learning lleva ya unas cuantas décadas con nosotros.

    Es curiso porque hace unos días publiqué en mi blog un artículo en una línea muy similar al tuyo. Te lo dejo por si le te interesa echarle un ojo: http://isaacgonzalez.es/por-que-lo-llaman-big-data-cuando-quieren-decir-analytics/

    Saludos,
    Isaac

    • Jose Manuel Glez. Corral

      23 mayo, 2017 at 1:31 PM Responder

      Hola Isaac,
      antes de nada darte las gracias por compartir tu feedback con nosotros.
      Al respecto de ambos artículos (incluyo el tuyo, me ha parecido muy interesante) tengo la sensación de que es algo que los profesionales que llevamos ya unos años en esto compartimos en la intimidad y ahora está empezando a hacerse visible. Dentro del ciclo de vida de lo hype siempre hay quien mantiene, o lo intenta, los pies en la tierra. Quizás vuelve a pasar lo mismo que en las anteriores burbujas y nuevamente los árboles no nos dejen ver el bosque. Espero sinceramente que no sea así en esta ocasión.
      Iremos viendo por donde evolucionan las cosas y aportando la necesaria visión crítica.
      Un saludo y muchas gracias!!

Post a Reply to Jose Manuel Glez. Corral Cancelar respuesta

9 + Ocho =

¡Suscríbete a nuestra newsletter mensual Stay Sharp!

Para más información

CONTÁCTANOS