viernes, 24 de febrero de 2017

Big Data para DUMMIES

BIG DATA PARA DUMMIES:


 ¿Que es Big Data?

 Es el proceso de recolección de datos estructurados y sin estructurar. Estos datos se analizan gracias a numerosas técnicas de análisis y búsqueda para encontrar en algunas ocasiones información oculta e incluso correlaciones… Normalmente el conjunto de datos a mover y analizar es tan grande y complejo que los procesadores convencionales no sirven de nada y todos los avances vienen dados por las tecnologías de la información(TICs) y las comunicaciones de última generación. Por qué no hablamos hoy en día de analizar, capturar, compartir, almacenar… pequeñas cantidades de información si no queda cada vez son más y por eso se está avanzado tanto en este campo.

La recolección de datos ha existido siempre, cuando en el amanecer el hombre primitivo hacía muescas en piedras o huesos para hacer seguimiento de las actividades cotidianas o de los suministros esenciales para subsistir en el día a día. 


Por eso la invención del ábaco supuso un empuje al cálculo y análisis cuando los dedos y la memoria no eran lo bastante buenos o suficientes, y las primeras bibliotecas representaron además un primer intento de almacenar datos.

Hoy en día, todo lo que hacemos está dejando un rastro digital instantáneo al que se puede utilizar y analizar.






Aquí te contamos cuales son las cuatro V de Big Data:

Cada una de estas cualidades es importante:
  1. Volumen

Los datos que utilizan las compañías cada vez son más, por eso se transforman es terabytes y peta bytes. Además, un conjunto de archivos de tamaño no muy elevado puede contener miles de millones de archivos dificultando los procesos de análisis.
Por ejemplo, twitter publica 12 terabytes en información en tweets. Big Data resumen todo eso en un simple análisis avanzado.

      2.Velocidad
Es cierto, que el volumen de datos no es un problema en cuanto a almacenamiento, pero si en lo asociado al tiempo a llegar a la información deseada.
Por ejemplo, Big Data evita fraudes bancarios según el IBM, ya que esta tecnología revisa gran cantidad de datos diariamente y generar alarmas si detecta algo raro.

     3.Variedad:
Big Data está compuesta por datos de cualquier formato (audios, textos, videos…). La intención es encontrar nuevas claves para optimizar la información y su búsqueda.

     4.Veracidad:
Big Dara es una opción bastante buena antes que recopilar información de forma dudosa, ya que esta información surge de la experimentación, por eso es algo realmente útil.

¿Quieres saber que es un dato y como se utiliza en el proceso de analisis?


Los datos son un conjunto de acontecimientos o estadísticas que pueden analizarse y usarse como información. 

La información son los datos ya catalogados según nuestro criterio o una criba, es decir, organizándolo según su estructura y significado.

El conocimiento se basa en una combinación de datos e información sumados a opiniones de expertos y otros importantes criterios, que dan como resultado final un activo que ayuda a tomar decisiones a lo largo de múltiples procesos.

La inteligencia de momento no la definiremos ya que no la consideramos necesaria en ningún momento.




Hay diversos tipos de datos según su estructura:





  • Los datos estructurados son datos con un esquema fijo y que tienen campos ya predeterminados.
  • Los datos semi-estructurados no tienen formatos fijos, pero contienen marcadores y etiquetas que permiten diferenciar los distintos elementos.
  • Los datos no estructurados no están predefinidos y se almacenan como documentos u objetos sin una estructura uniforme.
    • Los datos en tiempos son un tipo de datos no estructurados, pero con una peculiaridad, que se les añade el poder de observarlos en el momento en el que ocurre, es decir, en directo.


Algunas fuentes de datos son:


  1. Redes sociales y webs.
  2. Interacciones entre máquinas como las señales GPS.
  3. Transacciones como los registros bancarios que realizamos a diario
  4. Datos generados por el ser humano como libros y artículos
  5. Datos biométricos como huellas digitales o genes.


Las fuentes de información según su origen pueden ser:


Primarias o secundarias.
Dentro de las fuentes primarias pueden ser internas si realizamos todo el proceso de información nosotros o si proviene de otras fuentes de información como una encuesta de un organismo privado será externa.


Dentro de las fuentes de información secundarias pueden ser internas o secundarias según el origen de estas. Además las fuentes de información externas distinguen entre instituciones públicas o privadas. 



¿Hay distintas unidades de medida?

Claro que si, aqui te mostramos en una tabla de forma precisa y clara las distintas unidades de medida:



¿Quieres saber algo más sobre bases de datos?


Algunas curiosidades respecto a las bases de datos es que cada dos días creamos muchísima más información de la que creábamos desde 2003, por eso el 90% de los datos que tenemos hoy han sido creados estos dos últimos años.

La mayor base de datos del mundo se llama AT&T que contiene dos 312 terabytes con dos trillones de registros en su haber. AT&T (American Telephone and Telegraph) es una compañía estadounidense de telecomunicaciones. Provee servicios de voz, video, datos e Internet a negocios, clientes y agencias del gobierno.

ANÁLISIS DE DATOS

Por lo tanto, lo que transforma Big Data es un volumen de datos enorme y de una complejidad cada vez mayor a gran velocidad a la hora de analizar los datos y para tomar decisiones.






¿Tiene Big data presencia en los negocios? 



Esa pregunta es realizada por numerosas personas cuando leen este blog.  Big data se utiliza para orientar a la policía en casos extremos, llegando incluso a detectar en que zonas de la ciudad van a ocurrir un total de cinco crímenes con más de un 65% de probabilidad de certeza.

Pero también en el ámbito más duro de negocios hasta el punto en que la empresa de telefonía móvil T-Mobile redujo su número de portabilidades en un 50% gracias al análisis de datos recaudados en todas sus quejas de clientes. Gracias a este análisis ofreció a cada cliente que quería irse un contrato con lo que más se ajustaba a sus necesidades.

Wal-Mart gracias a Big data ha incrementado los ingresos en su página de venta online usando un patrón de búsqueda mejorado gracias al estudio previo, gracias a mostrar búsquedas más relevantes aún.

Y en el mundo del deporte también se usa. La NFL tiene una enorme plataforma de Big Data que ayuda a cada equipo de los 32 a tomar la mejor decisión previo estudio de las condiciones meteorológicas, estado del césped, estado del jugador…

Coca-Cola, una de las empresas más importantes a nivel mundial ha llegado incluso a desarrollar su propio algoritmo para hacer lo más eficiente posible su producción de zumo de naranja analizando variables como las presiones, el clima, las preferencias en cada región… Además de usar los análisis de Big Data para saber más sobre sus consumidores o sobre la fama de la marca en la calle.
Mercedes Benz es otra gran marca automovilística, podríamos decir incluso que la mejor marca de coches del mundo. Y para tener toda al información posible sobre lo que ocurre cuando uno de sus coches circula tiene implantado un sistema de información vía GPS en todos sus coches.

Nestle otra marca que ha creado su propio equipo de análisis de Big Data, el equipo Digital Aceleration Team, un equipo que controla los siete días de la semana durante el día entero las conversaciones por redes sociales entre los consumidores de sus productos.


Todo esto es en ámbito privado, pero podemos observar como en el ámbito público también se utiliza esta nueva tecnología.

La función principal es predecir el consumo de energía, esto se intenta predecir gracias a los datos generados por medidores inteligentes del consumo agua, gas y electricidad en intervalos de una hora. Cada red incluye sensores que monitorizan el voltaje, la frecuencia y numerosas otras características operativas necesarias para realizar un estudio concreto y preciso. Una resolución de Big Data puede analizar los datos de producción de energía y de su consumo gracias a medidores inteligentes.

En el ámbito de las telecomunicaciones, se desarrollan modelos de supervisión y evaluación que incluyen datos procedentes de las redes sociales y de las transacciones. El valor de estos modelos depende de la calidad de la información de los clientes y de su comportamiento. Gracias a esto las grandes empresas que emplean esta metodología pueden gestionar y predecir la deserción de sus clientes analizando y sacando patrones de conducta.

Por otro lado, en el ámbito de análisis de marketing, se analizan datos web y sociales que recogen de redes como Twitter para saber que escriben los usuarios sobre ellos y sus productos o servicios después de cada producto que lanzan al mercado.

También, como es de suponer se usa Big Data en procesos de recolección de los datos que proporcionan llamadas de atención al cliente por parte de las grandes empresas para obtener información y usarla en su beneficio, es decir, saber sus puntos débiles para mejorarlos.






Y otra forma en la que podemos observar el Big Data a diario ocurre cuando tu entrar en tu navegador y realizar alguna búsqueda de algún producto que te gustaría comprar. Al día siguiente cuando arrancas tu buscador te saldrá publicidad solo sobre este producto. Esto es debido a que todo lo que tu realizas en la web se queda registrado y las empresas usan esta información para venderte su producto hasta que buscas otro producto o incluso servicio que te interesa y esa información cambia a esta última búsqueda.


Aquí te dejo algunos enlaces de gran interes y en mi opninión bastante buenos:


Big data: La Revolución de los Datos Masivos” de Viktor Mayer-Schönberger y Kenneth Cukier


https://youtu.be/bYS_4CWu3y8



































Big Data for Dummies” de Judith Hurwitz y otros autores


































No hay comentarios:

Publicar un comentario