viernes, 24 de febrero de 2017

Big Data para DUMMIES

BIG DATA PARA DUMMIES:


 ¿Que es Big Data?

 Es el proceso de recolección de datos estructurados y sin estructurar. Estos datos se analizan gracias a numerosas técnicas de análisis y búsqueda para encontrar en algunas ocasiones información oculta e incluso correlaciones… Normalmente el conjunto de datos a mover y analizar es tan grande y complejo que los procesadores convencionales no sirven de nada y todos los avances vienen dados por las tecnologías de la información(TICs) y las comunicaciones de última generación. Por qué no hablamos hoy en día de analizar, capturar, compartir, almacenar… pequeñas cantidades de información si no queda cada vez son más y por eso se está avanzado tanto en este campo.

La recolección de datos ha existido siempre, cuando en el amanecer el hombre primitivo hacía muescas en piedras o huesos para hacer seguimiento de las actividades cotidianas o de los suministros esenciales para subsistir en el día a día. 


Por eso la invención del ábaco supuso un empuje al cálculo y análisis cuando los dedos y la memoria no eran lo bastante buenos o suficientes, y las primeras bibliotecas representaron además un primer intento de almacenar datos.

Hoy en día, todo lo que hacemos está dejando un rastro digital instantáneo al que se puede utilizar y analizar.






Aquí te contamos cuales son las cuatro V de Big Data:

Cada una de estas cualidades es importante:
  1. Volumen

Los datos que utilizan las compañías cada vez son más, por eso se transforman es terabytes y peta bytes. Además, un conjunto de archivos de tamaño no muy elevado puede contener miles de millones de archivos dificultando los procesos de análisis.
Por ejemplo, twitter publica 12 terabytes en información en tweets. Big Data resumen todo eso en un simple análisis avanzado.

      2.Velocidad
Es cierto, que el volumen de datos no es un problema en cuanto a almacenamiento, pero si en lo asociado al tiempo a llegar a la información deseada.
Por ejemplo, Big Data evita fraudes bancarios según el IBM, ya que esta tecnología revisa gran cantidad de datos diariamente y generar alarmas si detecta algo raro.

     3.Variedad:
Big Data está compuesta por datos de cualquier formato (audios, textos, videos…). La intención es encontrar nuevas claves para optimizar la información y su búsqueda.

     4.Veracidad:
Big Dara es una opción bastante buena antes que recopilar información de forma dudosa, ya que esta información surge de la experimentación, por eso es algo realmente útil.

¿Quieres saber que es un dato y como se utiliza en el proceso de analisis?


Los datos son un conjunto de acontecimientos o estadísticas que pueden analizarse y usarse como información. 

La información son los datos ya catalogados según nuestro criterio o una criba, es decir, organizándolo según su estructura y significado.

El conocimiento se basa en una combinación de datos e información sumados a opiniones de expertos y otros importantes criterios, que dan como resultado final un activo que ayuda a tomar decisiones a lo largo de múltiples procesos.

La inteligencia de momento no la definiremos ya que no la consideramos necesaria en ningún momento.




Hay diversos tipos de datos según su estructura:





  • Los datos estructurados son datos con un esquema fijo y que tienen campos ya predeterminados.
  • Los datos semi-estructurados no tienen formatos fijos, pero contienen marcadores y etiquetas que permiten diferenciar los distintos elementos.
  • Los datos no estructurados no están predefinidos y se almacenan como documentos u objetos sin una estructura uniforme.
    • Los datos en tiempos son un tipo de datos no estructurados, pero con una peculiaridad, que se les añade el poder de observarlos en el momento en el que ocurre, es decir, en directo.


Algunas fuentes de datos son:


  1. Redes sociales y webs.
  2. Interacciones entre máquinas como las señales GPS.
  3. Transacciones como los registros bancarios que realizamos a diario
  4. Datos generados por el ser humano como libros y artículos
  5. Datos biométricos como huellas digitales o genes.


Las fuentes de información según su origen pueden ser:


Primarias o secundarias.
Dentro de las fuentes primarias pueden ser internas si realizamos todo el proceso de información nosotros o si proviene de otras fuentes de información como una encuesta de un organismo privado será externa.


Dentro de las fuentes de información secundarias pueden ser internas o secundarias según el origen de estas. Además las fuentes de información externas distinguen entre instituciones públicas o privadas. 



¿Hay distintas unidades de medida?

Claro que si, aqui te mostramos en una tabla de forma precisa y clara las distintas unidades de medida:



¿Quieres saber algo más sobre bases de datos?


Algunas curiosidades respecto a las bases de datos es que cada dos días creamos muchísima más información de la que creábamos desde 2003, por eso el 90% de los datos que tenemos hoy han sido creados estos dos últimos años.

La mayor base de datos del mundo se llama AT&T que contiene dos 312 terabytes con dos trillones de registros en su haber. AT&T (American Telephone and Telegraph) es una compañía estadounidense de telecomunicaciones. Provee servicios de voz, video, datos e Internet a negocios, clientes y agencias del gobierno.

ANÁLISIS DE DATOS

Por lo tanto, lo que transforma Big Data es un volumen de datos enorme y de una complejidad cada vez mayor a gran velocidad a la hora de analizar los datos y para tomar decisiones.






¿Tiene Big data presencia en los negocios? 



Esa pregunta es realizada por numerosas personas cuando leen este blog.  Big data se utiliza para orientar a la policía en casos extremos, llegando incluso a detectar en que zonas de la ciudad van a ocurrir un total de cinco crímenes con más de un 65% de probabilidad de certeza.

Pero también en el ámbito más duro de negocios hasta el punto en que la empresa de telefonía móvil T-Mobile redujo su número de portabilidades en un 50% gracias al análisis de datos recaudados en todas sus quejas de clientes. Gracias a este análisis ofreció a cada cliente que quería irse un contrato con lo que más se ajustaba a sus necesidades.

Wal-Mart gracias a Big data ha incrementado los ingresos en su página de venta online usando un patrón de búsqueda mejorado gracias al estudio previo, gracias a mostrar búsquedas más relevantes aún.

Y en el mundo del deporte también se usa. La NFL tiene una enorme plataforma de Big Data que ayuda a cada equipo de los 32 a tomar la mejor decisión previo estudio de las condiciones meteorológicas, estado del césped, estado del jugador…

Coca-Cola, una de las empresas más importantes a nivel mundial ha llegado incluso a desarrollar su propio algoritmo para hacer lo más eficiente posible su producción de zumo de naranja analizando variables como las presiones, el clima, las preferencias en cada región… Además de usar los análisis de Big Data para saber más sobre sus consumidores o sobre la fama de la marca en la calle.
Mercedes Benz es otra gran marca automovilística, podríamos decir incluso que la mejor marca de coches del mundo. Y para tener toda al información posible sobre lo que ocurre cuando uno de sus coches circula tiene implantado un sistema de información vía GPS en todos sus coches.

Nestle otra marca que ha creado su propio equipo de análisis de Big Data, el equipo Digital Aceleration Team, un equipo que controla los siete días de la semana durante el día entero las conversaciones por redes sociales entre los consumidores de sus productos.


Todo esto es en ámbito privado, pero podemos observar como en el ámbito público también se utiliza esta nueva tecnología.

La función principal es predecir el consumo de energía, esto se intenta predecir gracias a los datos generados por medidores inteligentes del consumo agua, gas y electricidad en intervalos de una hora. Cada red incluye sensores que monitorizan el voltaje, la frecuencia y numerosas otras características operativas necesarias para realizar un estudio concreto y preciso. Una resolución de Big Data puede analizar los datos de producción de energía y de su consumo gracias a medidores inteligentes.

En el ámbito de las telecomunicaciones, se desarrollan modelos de supervisión y evaluación que incluyen datos procedentes de las redes sociales y de las transacciones. El valor de estos modelos depende de la calidad de la información de los clientes y de su comportamiento. Gracias a esto las grandes empresas que emplean esta metodología pueden gestionar y predecir la deserción de sus clientes analizando y sacando patrones de conducta.

Por otro lado, en el ámbito de análisis de marketing, se analizan datos web y sociales que recogen de redes como Twitter para saber que escriben los usuarios sobre ellos y sus productos o servicios después de cada producto que lanzan al mercado.

También, como es de suponer se usa Big Data en procesos de recolección de los datos que proporcionan llamadas de atención al cliente por parte de las grandes empresas para obtener información y usarla en su beneficio, es decir, saber sus puntos débiles para mejorarlos.






Y otra forma en la que podemos observar el Big Data a diario ocurre cuando tu entrar en tu navegador y realizar alguna búsqueda de algún producto que te gustaría comprar. Al día siguiente cuando arrancas tu buscador te saldrá publicidad solo sobre este producto. Esto es debido a que todo lo que tu realizas en la web se queda registrado y las empresas usan esta información para venderte su producto hasta que buscas otro producto o incluso servicio que te interesa y esa información cambia a esta última búsqueda.


Aquí te dejo algunos enlaces de gran interes y en mi opninión bastante buenos:


Big data: La Revolución de los Datos Masivos” de Viktor Mayer-Schönberger y Kenneth Cukier


https://youtu.be/bYS_4CWu3y8



































Big Data for Dummies” de Judith Hurwitz y otros autores


































domingo, 12 de febrero de 2017

Tema 1

Creando conocimiento

Búsqueda y Gestión de la información y recursos multimedia nos va a ayudar a entender mejor la información que recibimos en el día a día y poder así catalogarlo según su tipología textual y llegar incluso a realizar una valoración crítica, y todo esto en el ámbito digital.

¿Internet presenta problemas?

Por supuesto y entre ellos destaca que la información en la red puede ser de difícil asimilación. Además debido a la gran cantidad de información que hay en la red es difícil decidirse por la mas completa y ya que la mayoría no esta actualizada y en ocasiones es restringida.

¿Cuales son las ciencias  de la documentación?

Las tres mas básicas son: informática, teledocumentación y bibliometría . La mas básica es la informática, incluye entre otras capacidades las bases de datos. La teledocumentación amplia a la informática con accesos “on-line” a las BD(telecomunicaciones + Informática + Documentos).
Y la bibliometría es aplicación de las matemáticas y métodos estadísticos y otros medios de comunicación para informar sobre los procesos de la comunicación escrita y de la naturaleza y curso del desarrollo de una disciplina mediante el recuento y análisis de las diferentes facetas de esta comunicación. Establecimiento e interpretación de estadísticas relativas a libros y revistas para demostrar movimientos históricos, uso nacional o internacional, uso general, estudio de tamaño, crecimiento o distribución, estudio de grupos de productores/consumidores, ...
Ciencias de la comunicación: “... ciencias que estudian el intercambio de símbolos de naturaleza humana...”
La bibliografía: ambas(bibliografia y bibliometria) proporcionan las citas bibliográficas de los documentos, aunque a la documentación, lo que le interesa es proporcionar al usuario el contenido de la información del documento.
La biblioteconomía esta íntimamente relacionada en un principio, la biblioteconomía concede más importancia a las fuentes finales de la documentación, mientras que la documentación dedica sus objetivos hacia el receptor de la información y la recuperación y difusión de la misma. Ambas recogen, analizan y difunden información. 
La Ciencia cognitiva se basa en elestudio de los detalles del proceso del conocimiento humano, su realización en el cerebro, la estructura de la mente,..., así como manifestaciones como la inteligencia, el lenguaje, el aprendizaje, ... Ciencias de la comunicación: “... ciencias que estudian el intercambio de símbolos de naturaleza humana...” 

¿Que tipología de documentos hay?

Los distintos tipos  de documentos son:textuales e impresos(soporte papel), micrográficos(microfilm) audiovisuales(vídeo, películas), magnéticos(discos magnéticos y cinta magnética), ópticos(CD-ROM), electrónicos(bases de datos “on-line”).
El medio fisico no implica con que contenido debe estar relacionado.

¿Que pasos debe seguir una cadena documental?

1.Selección:recogida de documentos.
2.Análisis:operaciones realizadas para representar el contenido de un documento de forma diferente al formato original.
3. Búsqueda:procedimientos manuales, electrónicos y/o intelectuales a seguir para obtener del fondo bibliográfico los documentos que respondan a una búsqueda concreta.
4.Difusión:difundir la información que responde a las preocupaciones informativas mediante una serie de servicios específicos.

¿Cuales son las fuentes de información?

Por un lado esta la llamada literatura gris que son publicaciones que no se distribuyen a través de los canales convencionales como editoriales o librerías, y que por tanto son difíciles de identificar y obtener.
Y por otro lado están las bibliotecas depositarias, que vienen a ser las bibliotecas convencionales, es decir,  bibliotecas científicas cuyo objetivo es conservar documentos con la intención de difundir todos los documentos científicos originales a nivel territorial, nacional o internacional.

¿Que es Internet?

Internet es un conjunto descentralizado de redes de comunicación interconectadas, que utilizan la familia de protocolos TCP/IP, garantizando que las redes físicas heterogéneas que la componen funcionen como una red lógica única, de alcance mundial. Sus orígenes se remontan a 1969, cuando se estableció la primera conexión de computadoras, conocida como ARPANET, entre tres universidades en California y una en UtahEstados Unidos.


Uno de los aspectos básicos sobre Internet que todo usuario debe conocer es el relativo a los nombres de Dominio.
Un nombre de dominio es una cadena de caracteres alfanuméricos, que cumple un formato y normas establecidos, en la que se traduce una dirección IP de una máquina. Los nombres de dominio constituyen la clave para el funcionamiento de Internet. Desde el punto de vista técnico, a la vez que identifican los equipos conectados a la redya que resuelven las direcciones IP, permiten su fácil localización y hacen amigable el uso de Internet.
a seguridad en Internet tiene muchas vertientes, desde la más técnica a la orientada a los usuarios. Es en este último escenario en el que aquí nos moveremos.
La seguridad se basa en la probabilidad. Nada es completamente seguro, ni existen programas invulnerables, pero cuando más precavido seas, existen menos probabilidades de que violen la seguridad. La cuestión fundamental es conocer los aspectos relativos a la seguridad más importantes:
Firewall, Datos confidenciales, Contraseñas, Correo y Spyware y virus.



¿Que es un servicio de Internet?



Se puede afirmar que Internet es mucho más que la WWW, y que la red posee una serie de servicios que, en mayor o menor medida, tienen que ver con las funciones de información, red de ordenadores y servicioscomunicación e interacción. Algunos de los servicios disponibles en Internet aparte de la Web, son el acceso remoto a otros ordenadores (a través de telnet o siguiendo el modelo cliente/servidor), la transferencia de ficheros (FTP), el correo electrónico (e-mail), los boletines electrónicos y grupos de noticias (USENET y news groups), las listas de distribución, los foros de debate y las conversaciones en línea (chats).

El correo electrónico y los boletines de noticias Usenet fueron las primeras formas de comunicación que se usaron sobre Internet, pero la red ofrece hoy una amplia gama de instrumentos y contextos para el acceso y la recuperación de documentos, la comunicación y la interacción. Además, el acceso y la distribución de información ya no se limitan al texto en código ASCII, como en los primeros tiempos de Internet, sino que abarcan todas las morfologías de la información: texto, imagen, audio, vídeo, recursos audiovisuales, etc. En Internet también se puede escuchar la radio, ver la televisión, asistir a un concierto, visitar un museo o jugar a través de la red. El empleo del Internet ha crecido exponencialmente gracias a muchos de estos usos y, especialmente, por la facilidad de manejo que permite hoy la propia World Wide Web.



Así pues, existen unos servicios que permiten el intercambio de mensajes personales (correo electrónico, grupos de noticias, listas de distribución, foros, etc.), otros adecuados para la interacción mediante conversaciones en tiempo real (chats) y otros dedicados al suministro y acceso a la información (World Wide Web, FTP, etc.).

Los servicios que hoy ofrece Internet no sólo se han multiplicado, sino que han evolucionado hacia nuevas y mejoradas funciones y han ganado en facilidad de uso y manejo. A este cambio han contribuido no sólo la velocidad de transferencia de los bits que permiten los modems y routers actuales y la mayor eficiencia y capacidad de las líneas de telecomunicaciones con un gran ancho de banda, sino también, mejoras en el software y las aplicaciones (bases de datos integradas en la Web, motores de búsqueda, agentes inteligentes, etc.) y en el hardware (mayor capacidad de almacenamiento y memoria, incremento exponencial de la velocidad de los procesadores, capacidad de tratar todo tipo de datos no sólo los textuales, sino también los datos multimedia, etc.).
El usuario ya no tiene que operar con comandos y algoritmos complejos, sino manejando el ratón sobre iconos e interfaces gráficas e incluso con la voz, y por medio del lenguaje natural.
Un servicio de Internet es una modalidad de transmisión de un tipo determinado de información bajo un conjunto de reglas comunes (los protocolos). El servicio más conocido de Internet es la World Wide Web, pero no es el único.


¿Que son las redes en Internet?


Una red de telecomunicaciones consiste en una infraestructura física a través de la cual se transporta la información desde la fuente hasta el destino, y con base en esa infraestructura se ofrecen a los usuarios los diversos servicios de telecomunicaciones. En lo sucesivo se denominará "red de telecomunicaciones" a la infraestructura encargada del transporte de la información. Para recibir un servicio de telecomunicaciones, un usuario utiliza un equipo terminal a través del cual obtiene entrada a la red por medio de un canal de acceso.
Cada servicio de telecomunicaciones tiene distintas características, puede utilizar diferentes redes de transporte, y, por tanto, el usuario requiere de distintos equipos terminales. Por ejemplo, para tener acceso a la red telefónica, el equipo terminal requerido consiste en un aparato telefónico; para recibir el servicio de telefonía celular, el equipo terminal consiste en teléfonos portátiles con receptor y transmisor de radio, etcétera.
La principal razón por la cual se han desarrollado las redes de telecomunicaciones es que el costo de establecer un enlace dedicado entre cualesquiera dos usuarios de una red sería elevadísimo, sobre todo considerando que no todo el tiempo todos los usuarios se comunican entre sí. Es mucho mejor contar con una conexión dedicada para que cada usuario tenga acceso a la red a través de su equipo terminal, pero una vez dentro de la red los mensajes utilizan enlaces que son compartidos con otras comunicaciones de otros usuarios.
En general se puede afirmar que una red de telecomunicaciones consiste en las siguientes componentes:
  1. un conjunto de nodos en los cuales se procesa la información
  2. un conjunto de enlaces o canales que conectan los nodos entre sí y a través de los cuales se envía la información desde y hacia los nodos.