BIG DATA PARA DUMMIES:
¿Que es Big Data?
Es el
proceso de recolección de datos estructurados y sin estructurar. Estos datos se
analizan gracias a numerosas técnicas de análisis y búsqueda para encontrar en
algunas ocasiones información oculta e incluso correlaciones… Normalmente el
conjunto de datos a mover y analizar es tan grande y complejo que los
procesadores convencionales no sirven de nada y todos los avances vienen dados
por las tecnologías de la información(TICs) y las comunicaciones de última
generación. Por qué no hablamos hoy en día de analizar, capturar, compartir,
almacenar… pequeñas cantidades de información si no queda cada vez son más y
por eso se está avanzado tanto en este campo.
La recolección
de datos ha existido siempre, cuando en el amanecer el hombre primitivo hacía
muescas en piedras o huesos para hacer seguimiento de las actividades
cotidianas o de los suministros esenciales para subsistir en el día a día.
Por eso la invención del ábaco supuso un empuje al cálculo y análisis cuando los dedos y la memoria no eran lo bastante buenos o suficientes, y las primeras bibliotecas representaron además un primer intento de almacenar datos.
Hoy en día, todo lo que hacemos está dejando un rastro digital instantáneo al que se puede utilizar y analizar.
Aquí te contamos cuales son las cuatro V de Big Data:
Cada una de estas cualidades es importante:
- Volumen
Los datos que utilizan las compañías cada vez son más, por
eso se transforman es terabytes y peta bytes. Además, un conjunto de archivos
de tamaño no muy elevado puede contener miles de millones de archivos
dificultando los procesos de análisis.
Por ejemplo, twitter publica 12 terabytes en información en
tweets. Big Data resumen todo eso en un simple análisis avanzado.
2.Velocidad
Es cierto, que el volumen de datos no es un problema en
cuanto a almacenamiento, pero si en lo asociado al tiempo a llegar a la
información deseada.
Por ejemplo, Big Data evita fraudes bancarios según el IBM,
ya que esta tecnología revisa gran cantidad de datos diariamente y generar alarmas
si detecta algo raro.
3.Variedad:
Big Data está compuesta por datos de cualquier formato (audios,
textos, videos…). La intención es encontrar nuevas claves para optimizar la información
y su búsqueda.
4.Veracidad:
Big Dara es una opción bastante buena antes que recopilar
información de forma dudosa, ya que esta información surge de la
experimentación, por eso es algo realmente útil.
¿Quieres saber que es un dato y como se utiliza en el proceso de analisis?
Los datos
son un conjunto de acontecimientos o estadísticas que pueden analizarse y
usarse como información.
La
información son los datos ya catalogados según nuestro criterio o una criba, es
decir, organizándolo según su estructura y significado.
El conocimiento se basa en una combinación de datos e
información sumados a opiniones de expertos y otros importantes criterios, que
dan como resultado final un activo que ayuda a tomar decisiones a lo largo de
múltiples procesos.
La inteligencia de momento no la definiremos ya que no la
consideramos necesaria en ningún momento.
Hay diversos tipos de datos según su estructura:
- Los datos estructurados son datos con un esquema fijo y que tienen campos ya predeterminados.
- Los datos semi-estructurados no tienen formatos fijos, pero contienen marcadores y etiquetas que permiten diferenciar los distintos elementos.
- Los datos no estructurados no están predefinidos y se almacenan como documentos u objetos sin una estructura uniforme.
- Los datos en tiempos son un tipo de datos no estructurados, pero con una peculiaridad, que se les añade el poder de observarlos en el momento en el que ocurre, es decir, en directo.
Algunas fuentes de datos son:
- Redes sociales y webs.
- Interacciones entre máquinas como las señales GPS.
- Transacciones como los registros bancarios que realizamos a diario
- Datos generados por el ser humano como libros y artículos
- Datos biométricos como huellas digitales o genes.
Las fuentes de información según su origen pueden ser:
Primarias o secundarias.
Dentro de las fuentes primarias pueden ser internas si
realizamos todo el proceso de información nosotros o si proviene de otras
fuentes de información como una encuesta de un organismo privado será externa.
Dentro de las fuentes de información secundarias pueden ser
internas o secundarias según el origen de estas. Además las fuentes de
información externas distinguen entre instituciones públicas o privadas.
¿Hay distintas unidades de medida?
Claro que si, aqui te mostramos en una tabla de forma precisa y clara las distintas unidades de medida:¿Quieres saber algo más sobre bases de datos?
Algunas curiosidades respecto a las bases de datos es que
cada dos días creamos muchísima más información de la que creábamos desde 2003,
por eso el 90% de los datos que tenemos hoy han sido creados estos dos últimos
años.
La mayor base de datos del mundo se llama AT&T que
contiene dos 312 terabytes con dos trillones de registros en su haber. AT&T
(American Telephone and Telegraph) es una compañía estadounidense de
telecomunicaciones. Provee servicios de voz, video, datos e Internet a
negocios, clientes y agencias del gobierno.
ANÁLISIS DE DATOS
Por lo tanto, lo que transforma Big Data es un volumen de
datos enorme y de una complejidad cada vez mayor a gran velocidad a la hora de
analizar los datos y para tomar decisiones.
¿Tiene Big data presencia en los negocios?
Esa pregunta es realizada por numerosas personas cuando leen
este blog. Big data se utiliza para
orientar a la policía en casos extremos, llegando incluso a detectar en que
zonas de la ciudad van a ocurrir un total de cinco crímenes con más de un 65%
de probabilidad de certeza.
Pero también en el ámbito más duro de negocios hasta el
punto en que la empresa de telefonía móvil T-Mobile redujo su número de
portabilidades en un 50% gracias al análisis de datos recaudados en todas sus
quejas de clientes. Gracias a este análisis ofreció a cada cliente que quería irse
un contrato con lo que más se ajustaba a sus necesidades.
Wal-Mart gracias a Big data ha incrementado los ingresos en
su página de venta online usando un patrón de búsqueda mejorado gracias al
estudio previo, gracias a mostrar búsquedas más relevantes aún.
Y en el mundo del deporte también se usa. La NFL tiene una
enorme plataforma de Big Data que ayuda a cada equipo de los 32 a tomar la
mejor decisión previo estudio de las condiciones meteorológicas, estado del césped,
estado del jugador…
Coca-Cola, una de las empresas más importantes a nivel
mundial ha llegado incluso a desarrollar su propio algoritmo para hacer lo más
eficiente posible su producción de zumo de naranja analizando variables como
las presiones, el clima, las preferencias en cada región… Además de usar los análisis
de Big Data para saber más sobre sus consumidores o sobre la fama de la marca
en la calle.
Mercedes Benz es otra gran marca automovilística, podríamos decir
incluso que la mejor marca de coches del mundo. Y para tener toda al información
posible sobre lo que ocurre cuando uno de sus coches circula tiene implantado
un sistema de información vía GPS en todos sus coches.
Nestle otra marca que ha creado su propio equipo de análisis
de Big Data, el equipo Digital Aceleration Team, un equipo que controla los
siete días de la semana durante el día entero las conversaciones por redes
sociales entre los consumidores de sus productos.
Todo esto es en ámbito privado, pero podemos observar como
en el ámbito público también se utiliza esta nueva tecnología.
La función principal es predecir el consumo de energía, esto
se intenta predecir gracias a los datos generados por medidores inteligentes
del consumo agua, gas y electricidad en intervalos de una hora. Cada red
incluye sensores que monitorizan el voltaje, la frecuencia y numerosas otras características
operativas necesarias para realizar un estudio concreto y preciso. Una resolución
de Big Data puede analizar los datos de producción de energía y de su consumo
gracias a medidores inteligentes.
En el ámbito de las telecomunicaciones, se desarrollan
modelos de supervisión y evaluación que incluyen datos procedentes de las redes
sociales y de las transacciones. El valor de estos modelos depende de la
calidad de la información de los clientes y de su comportamiento. Gracias a
esto las grandes empresas que emplean esta metodología pueden gestionar y
predecir la deserción de sus clientes analizando y sacando patrones de
conducta.
Por otro lado, en el ámbito de análisis de marketing, se
analizan datos web y sociales que recogen de redes como Twitter para saber que
escriben los usuarios sobre ellos y sus productos o servicios después de cada
producto que lanzan al mercado.
También, como es de suponer se usa Big Data en
procesos de recolección de los datos que proporcionan llamadas de atención al
cliente por parte de las grandes empresas para obtener información
y usarla en su beneficio, es decir, saber sus puntos débiles para mejorarlos.
Y otra forma en la que podemos observar el Big Data a diario
ocurre cuando tu entrar en tu navegador y realizar alguna búsqueda de algún producto
que te gustaría comprar. Al día siguiente cuando arrancas tu buscador te saldrá
publicidad solo sobre este producto. Esto es debido a que todo lo que tu
realizas en la web se queda registrado y las empresas usan esta información para
venderte su producto hasta que buscas otro producto o incluso servicio que te
interesa y esa información cambia a esta última búsqueda.
Aquí te dejo algunos enlaces de gran interes y en mi opninión bastante buenos:
“Big data: La Revolución de los Datos Masivos” de Viktor Mayer-Schönberger y Kenneth Cukier
“Analítica Predictiva. Predecir el Futuro Utilizando Big Data” de Eric Siegel
“Too Big to ignore: The Business Case for Big Data” de Phil Simon
“Big Data for Dummies” de Judith Hurwitz y otros autores