#2 Datos vs información en la analítica avanzada

  • Autor de la entrada:
En este momento estás viendo #2 Datos vs información en la analítica avanzada
Imagen Data is the new Oil en Pngkey

Tiempo estimado de lectura: 5 minutos.

Hablo mucho de información, pero ¿es lo mismo información que datos?

La verdad es que aunque muchas veces lo use de manera indiscriminada (y creo que no soy yo sola), no, no es lo mismo datos que información.

Por un lado, tenemos una ingente cantidad de datos que generamos nosotros o los dispositivos que utilizamos. Por ejemplo, tenemos datos de las transacciones que hacemos con los bancos, datos de encuestas que contestamos, datos biométricos de nuestra actividad física diaria (o no tanto), fotos, uso de aplicaciones o páginas web que consultamos, etc. Este dato generado y guardado sin ninguna transformación intermedia, es lo que se llama dato en bruto.

Pues bien, en 2006 Clive Humby (matemático y científico de datos británico) acuñó la frase “Data is the new oil” (“Los datos son el nuevo petróleo) y la detalló diciendo que los datos son valiosos, pero sin refinar, clasificar y ordenar no pueden ser realmente usados. Necesitan una transformación para poder ser de utilidad. Este dato transformado y útil es lo que llamamos información. La información es a los datos lo que la gasolina o el plástico al petroleo.

Para ilustrar la diferencia, he elegido esta noticia de Spotify, que me llamó la atención, donde se explica cómo la aplicación de música Spotify, sugiere canciones basadas en tus emociones. Pero ¿qué son estas emociones que Spotify puede utilizar como categorías para las canciones? Una emoción es en general algo intangible, que cuando experimentamos, resulta imposible almacenarla como tal (por el momento al menos). En este caso, las emociones que utiliza la plataforma de música, es información que parte de otros datos en bruto después de limpiarlos, relacionarlos entre sí y etiquetarlos como una emoción basada en experiencias pasadas.

Simplificando: la información es un subconjunto de los datos y sirve para resolver problemas que el dato en bruto (otros subconjunto de los datos a su vez) no puede.

Almacenar, limpiar y clasificar los datos en bruto para convertirlos en útiles, es la parte más costosa en tiempo de los proyectos de analítica avanzada. Normalmente conlleva entre un 75 y un 80% del tiempo de cualquier proyecto, aunque una vez que tenemos el dato ya tratado o información generada para un uso, siempre la podemos usar para otro siempre que la tengamos correctamente almacenado.

Procesos tan importantes como el gobierno y la calidad del dato facilitan este mantenimiento de los flujos de generación y almacenamiento de la información y ayudan asegurar un orden en la ingente cantidad de datos existente.

Según Statista, se estima que el tamaño total de datos generado, capturado, copiado y consumido globalmente en el mundo ha alcanzado los 64,2 zettabytes y se proyecta un crecimiento hasta 181 zettabytes en 2025. Os reconozco que a mí me cuesta visualizar valores tan grandes pero para que os hagáis una idea, un zettabyte es un billón europeo (un trillón americano) de Gigabytes y como referencia, la cuenta de gratuita de Google Drive son 15 Gigabytes (y después de unos cuantos años, yo todavía no llevo más de un 75% usado).

Y este volumen crece de manera exponencial, de hecho, más del 50% del dato existente se ha generado en los últimos dos años.

Lo veremos en otra entrada pero, aunque uno de los impulsores de esta época de la información ha sido la disponibilidad de sistemas operativos más económicos, cuando hay que procesar y guardar tanto, el coste total de uso de procesadores y máquinas puede llegar a ser importante.

Por eso, lo que empezó por parte de las empresas como una carrera para almacenar todo el dato en bruto posible y utilizarlo en un futuro cuando sugiera la oportunidad (los famosos lagos de datos o Datalakes), ahora se ha normalizado y en general, los datos (en bruto) se almacenan cuando se sabe que hay un posible uso detrás, haciendo una utilización más consciente de los recursos. Y si ello se hace dentro de la legalidad, siempre con consentimiento mediante (¡miradlo siempre!).

Ahora, una pregunta, ¿qué datos en bruto nuestros creéis que usa Spotify para generar información con nuestra emoción? ¡Dejádmelo en comentarios!

Te espero en la siguiente entrega de «La época de la información» donde contaré algún detalle sobre por qué ahora es este momento y no otro.

Comentarios