La cantidad de datos que estamos acumulando está creciendo de forma exponencial con cada día que pasa y el «Big» en «Big Data» está empezando a causar problemas a la hora de encontrar la información que necesitamos. Por ese motivo, en Wizzie creemos que Smart Data es el siguiente paso en la evolución de Big Data, y estamos trabajando en ello.
¿Qué es Big Data? Bueno, hoy en día casi todo el mundo ya lo sabe: enormes cantidades de datos, estructurados o sin estructurar, desde diferentes fuentes de datos. Estos datos pueden provenir de bases de datos, logs, redes sociales, sensores de hardware… prácticamente de cualquier lugar. Los dispositivos IoT, por ejemplo, son una enorme fuente de datos hoy en día.

Pero también es una especie de consigna de progreso y la solución de muchos problemas, que puede estar enterrada entre toneladas de datos que las compañías han ido acumulando a lo largo de los últimos años. Y siguen acumulando. Pero Big Data ya no es suficiente. Sencillamente, hay demasiados datos. Y necesitamos una solución.

En el principio hubo… el problema

Uno de los errores más frecuentes que puede cometer una compañía es intentar usar un sistema Big Data porque sí. Porque es moderno. Y porque “en algún lugar ahí dentro tiene que haber información que podamos usar”. Pero las cosas no funcionan así. No compras un coche porque su tecnología es atractiva. Compras un coche porque necesitas desplazarte. Usar la tecnología porque es moderno, invariablemente conducirá a problemas, gastos innecesarios y tiempo perdido.

Por ello, el lugar adecuado para comenzar una iniciativa Big Data es con un problema o una necesidad. Tu compañía necesita resolver algo o mejorar un proceso, conseguir insight en el comportamiento de los usuarios, analizar datos de producción, verificar las peticiones de atención al cliente… sea lo que sea, este es el lugar en el comenzar.

Una vez definido el problema, el siguiente paso es averiguar si realmente se trata de un problema de Big Data. Porque muchas veces las cosas se pueden resolver o averiguar de otras formas, más tradicionales. Pero si no es posible, tal vez haya que usar tecnología Big Data. Es decir, analizar miles o millones de tipos de datos distintos, buscando aquellos que necesitamos para obtener respuesta a la pregunta que hacemos. Y aquí está lo importante: no todos nuestros datos son relevantes para todas las preguntas.

¿Por qué? Bueno, el término se acuñó como “Big Data”, demodo que ahí tenemos una pista. Nuestras informaciones pueden proceder de docenas de fuentes: sensores, bases de datos, fuentes online, lectores de barras, streams de audio o vídeo, etc. Pero no todos tienen que ver con lo que queremos averiguar ahora mismo. Y ese es el punto en que nuestros datos tienen que hacerse más inteligentes, no más grandes. Para así servir al propósito que tenemos en este momento.

V, V, V, V, y… ah sí, V

Puede que hayas oído hablar de ellas, las 5 V. Se mencionan muchas veces cuando hablamos de Big Data y representan Volume, Velocity, Variety, Veracity and Value. En ocasiones “value” se omite, pero para Smart Data es la “v” más importante en realidad. Porque lo que buscamos son datos relevantes para poder reducir nuestro Data Pool o Data Lake a sólo aquellos elementos que sean relevantes en este momento, para la pregunta u objetivos actuales.

Y aquí es donde viene el primer problema: no se trata de encontrar una confirmación en nuestros datos de lo que sospechamos o queremos que sea verdad. No hay que olvidad la “v” de “Veracity”. Se trata de las verdades que hay en los datos, no de conformar los datos a nuestra verdad. Debemos dejar que los datos hablen por sí mismos. Y, para eso, necesitamos que los datos sean más inteligentes.

Haz tus datos más inteligentes

En cierto modo, Smart Data es un subconjunto de Big Data. En realidad se trata del subconjunto de la información que necesitamos para el problema que nos ocupa. Sin todo el “ruido” que no necesitamos o no nos importa ahora. Y con el contexto apropiado. En nuestra Wizzie Data Platform, por ejemplo, de estas tareas se encargan principalmente el Enricher y el Correlator. Obtienen datos de diferentes fuentes y construyen el mejor dataset posible para la necesidad actual.

Sin embargo, Smart Data no siempre tiene la respuesta que estamos buscando. En ciertos casos es sólo un paso intermedio o nos ayuda a dividir un problema grande en partes más pequeñas, que sean más sencillas de procesar. O bien nos da una pista sobre cómo abordar el problema.

¿Por qué necesitamos Smart Data y no sólo Big Data? Bueno, esto es una cuestión de tamaño y escala. En el mundo actual, el mero volumen de los datasets o streams de Big Data puede ser abrumador y necesitamos reducir ese volumen a algo más manejable y práctico. Nos encontramos en lo que se ha dado en llamar la “Economía de algoritmos” (sobre la que publicaremos algo muy pronto) y, con millones de datos no estructurados e irrelevantes “volando” a nuestro alrededor, necesitamos sacarle partido a los importantes, aplicando reglas, IA, ML o lo que sea necesario, para “domar a la bestia”, por decirlo de alguna forma.

“Pero”, podrías decir, “¿entonces es una mera cuestión de tamaño?” No. No exactamente. Es una cuestión de conseguir aquellos datos en base a los que podamos actuar. Los datos apropiados. Y como nos enfrentamos a una cantidad de datos cada vez mayor, hacer que sean “inteligentes”, es algo obligado.

Pero… ¿cómo?

Para conseguir datos en base a los que puedas tomar decisiones, lo primero que necesitas saber es qué quieres capturar, porqué y qué quieres hacer con ello. Y hay un proceso para todo ello:

  • Primero necesitas elegir, de todas las fuentes de datos disponibles, a aquellas que prometen contener la respuesta a la pregunta que vas a formular. Recuerda que, sin una pregunta (el “problema”), Big Data como tal no tiene mucho sentido.
  • Combina aquellas fuentes de datos que tengan sentido para enriquecer la información, a fin de que se adecúe más al propósito elegido. Para este paso viene bien tener un Data Scientist.
  • Envía los datos resultantes a tu módulo o sistema de analítica, o a tu sistema de visualización.
  • Alinea los resultados con tus procesos de negocio. Si estos no encajan, puede que no sea culpa de los datos, sino de los procesos. No seas reticente a cambiarlos, si fuera necesario.

Evita empantanar tus datos

Muchas empresas, en vista de la omnipresencia de Big Data, han recurrido simplemente a almacenar todos los datos que puedan, con la esperanza de que algún día sean útiles para algo, todavía desconocido. Y eso es una forma realmente rápida te convertir tu “lago” de datos en una bonita ciénaga de primera.

A menos que seas Facebook, donde lo guardan todo, no hay necesidad de almacenarlo todo, sólo por si acaso, en el futuro, sirve de algo super-valioso. Para empresas con recursos limitados es mucho mejor almacenar sólo aquellos Smart Data que han construido con sus propias reglas, de forma los datos estén mucho más orientados hacia las metas de negocio de la empresa.

Aunque el almacenamiento es relativamente barato, guardar datos sólo porque tenemos la posibilidad, normalmente no es una buena estrategia. Por otro lado, el tener que pensar en lo que realmente nos importa de entre todos los datos recogidos es un buen ejercicio para comprobar nuestras metas y optimizar el camino para llegar a ellas.

Los datos inteligentes se hacen mucho más inteligentes si personas inteligentes definen qué es exactamente “inteligente” en el caso de su empresa en particular.

¿Qué pasa con el Machine Learning?

Si. Lo sabemos. Encontrar un buen científico de datos es más difícil que dar con el proverbial elefante rosa (por suerte, en el mundo de Big Data hay montones de elefantes amarillos). Y ese es el motivo por el que muchas compañías deciden emplear Machine Learning (ML) en su lugar. Estos sistemas basados en IA son capaces de detectar patrones, tendencias y similar en enormes conjuntos de datos y, con el tiempo mejoran en su tarea. Con un poco de entrenamiento son más rápidos, más precisos y más eficientes que los humanos. En el contexto de Smart Data pueden ser utilizados como “superfiltros” sobre nuestros datos, para mantener los mejores y despreciar el resto.

Pero no hemos de olvidar que todo lo relacionado con IA todavía está en sus principios. Aunque con la supervisión apropiada, los sistemas de Machine Learning pueden trabajar siguiendo las directrices, necesidades e intereses de una compañía específica, a fin de proporcionar sólo aquellos datasets que sean relevantes para el problema actual.

Nosotros en Wizzie, por ejemplo, estamos trabajando en mejorar nuestro Enricher y nuestro Correlator para ofrecer unos cimientos sólidos que hagan que los datos sean lo más inteligentes posible, a fin de extraer el máximo de valor de ellos. Porque sabemos lo importantes que son los datos empresariales hoy en día.

Share This