El blog de Ramón Vera: abril 2017

domingo, 23 de abril de 2017

¿HAS PERDIDO INFORMACIÓN IMPORTANTE DE TU PC Y DESEAS RECUPERARLA?

En este blog vamos a explicar de manera clara y sencilla como recuperar archivos y cualquier otro tipo de información de tu ordenador.

La búsqueda y recuperación de la información, es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección digital, encargada de la búsqueda de metadatos que describan documentos, o también la búsqueda de datos relacionales, a través de internet, y como objetivo realiza al recuperación en textos, imágenes, sonido o datos de otras características.

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar el criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Un proceso de recuperación de información comienza cuando un usuario hace una consulta al sistema. Una consulta a su vez es una afirmación formal de la necesidad de una información. En la recuperación de información una consulta no identifica únicamente a un objeto dentro de la colección. De hecho, varios objetos pueden ser respuesta a una consulta con diferentes grados de relevancia.

Un objeto es una identidad que está representada por información en una base de datos. En dependencia de la aplicación estos objetos pueden ser archivos de texto, imágenes, audio, mapas…

Muy a menudo los documentos no están almacenados en el sistema de recuperación de información, sino que están representados lógicamente.

La mayoría de los sistemas de recuperación de información computan un ranking para saber cuán bien cada objeto responde a la consulta, ordenando los de acuerdo a su valor de ranking. Los objetos con mayor ranking son mostrados a los usuarios y el proceso puede tener otras iteraciones si el usuario desea refinar su consulta.

TIPOS DE MODELOS:

Para recuperar los documentos relevantes por estrategias de recuperación de información, los documentos son transformados en una representación lógica de los mismos. Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de los documentos.

La figura a la derecha ilustra la relación entre algunos de los modelos más comunes.

Los modelos están categorizados de acuerdo a dos dimensiones: la base matemática y las propiedades de los modelos.

Primera dimensión: Base matemática

· Modelos basados en Teoría de Conjuntos: los documentos se representan como un conjunto de palabras o frases.

a) Modelo Booleano:

b) Modelo Booleano Extendido

c) Modelo Fuzzy

· Modelos algebraicos: en estos modelos los documentos y las consultas se representan como vectores, matrices o tupas. La similitud entre un documento y una consulta se representa por un escalar. Dentro de ellos tenemos:

a) Modelo Vectorial

b) Modelo Vectorial Generalizado

c) Modelo Booleano Extendido

d) Indexación Semántica Latente.

· Modelos probabilísticos: tratan el proceso de recuperación de documentos como una interferencia probabilística. Las similitudes son calculadas como las probabilidades de que un documento sea relevante dada una consulta.

a) Modelo de la independencia binaria

b) Modelo de Relevancia Probabilístico

c) Redes de Inferencia

d) Redes de Creencia

Segunda dimensión: Propiedades de los modelos

· Modelos sin independencia entre términos: tratan a los términos como si fueran independientes.

· Modelos con dependencia entre términos.

AHORA VAMOS A EXPLICAR PASO A PASO COMO RECUPERAR LA INFORMACIÓN DESDE EL MOMENTO EN QUE NOSOTROS LA CREAMOS:

· LA CONSULTA:

a) Necesidad de información:

Es la declaración en lenguaje natural de la información que requiere el usuario para el desempeño de sus actividades y funciones.

b) Consulta del usuario:

Es la expresión con la que se configura la demanda informativa del usuario, por regla general, en lenguaje natural, utilizando términos y palabras que le resultan más aproximados al objeto de recuperación.

c) Formulación del sistema:

Procesamiento y reformulación de la consulta del usuario que implica su descomposición en términos unitarios, procesos de reducción, eliminación de signos, eliminación de palabras vacías, sustitución y adición de términos normalizados. Finalmente una vez depurada y adaptada al consulta, se aplica el logaritmo de recuperación.

d) Consulta del sistema:

Es el resultado de la formulación del sistema partiendo de la consulta del usuario. Por regla general una sentencia de consulta optimizada para la recuperación en el sistema de información que equivale a la expresada por el usuario en lenguaje natural.

e) Expansión de consulta:

Es un proceso de reformulación automática del sistema que permite añadir nuevos términos a la clustering, que determinan la frecuencia de aparición de un grupo de términos contiguos, relacionados con la consulta del usuario, presentes en documentos clasificados dentro de un mismo ámbito temático y en torno a toda la colección.

f) Patrón:

Expresión sintáctica que define una serie de caracteres textuales, alfabéticos, numéricos y especiales, que se ajustarán por coincidencia en una palabra o término de un texto determinado.

g) Expresión regular:

También conocidas como REGEXP y POSIX, son aquellas expresiones sintácticas complejas y normalizadas compuestas a base de patrones.

LA BASE DE CONOCIMIENTO:

· Colección:

Es sinónimo de base de conocimiento, fonde de biblioteca ó corpues documental. El concepto colección hace referencia a un compendio de documentos seleccionados y obtenidos mediante métodos de webcrawling.

· Colección de referencia:

Aquella colección utilizada para la experimentación de los modelos de recuperación y sus logaritmos. Ello implica la disposición de plantillas de resultados con los documentos relevantes para cada consulta de prueba.

· Documento:

Elemento básico con el que se conforman las colecciones y unidad básica de recuperación como artiuclos o monografías.

Documento sustituto:

Simil de un documento de una colección, fiel a sus contenidos mediante sus elementos básicos como título,resumen… Se utiliza en las páginas de resultados, en procesos de visualización y representación.

· TREC:

Una de las colecciones de referencia más importantes a nivel internacional que contiene mas de un millón de documentos y que se usa por especialistas.

Depuración e Indexación:

· Depuración:

Procesos por los que los textos de los documentos de una colección son preparados para su posterior indexación, almacenamiento y recuperación. Tales procesos son la eliminación de signos, sustitución de caracteres, escapado de comillas, eliminación de palabras vacías.

· Palabras vacías:

Las palabras vacías o Stopwords, son aquellas palabras cuya frecuencia de aparición en el texto del documento resulta muy elevada y cuyo significado es nulo.

· Reducción:

Se denomina proceso de reducción o streamming a la técnica especializada en reducir palabras a sus raíces gramaticales.

· Indexación:

Proceso especializado en la elaboración de un índice ordenador de todas las palabras de un texto, una vez este fuere depurado, generando con ellos un fichero inverso que almacena la posición de los términos en cada documento en la colección indexada. Este proceso permite a bases de datos y motores e búsqueda realizar consultas rapidas y sistemáticas.

· Fulltex:
Texto completo o fulltex es un método de indexación por el que todas las palabras que componen el texto del documento se utilizan como términos de indexación.

EVALUACION Y RESULTADOS DE LA RECUPERACION:

· Precisión:

En recuperación de información, precisión es la medida que define cuantitativamente la relación entre los documentos recuperados y su relevancia para satisfacer la consulta del usuario.

· Exhaustividad

También llamado Recall es la capacidad del sistema para recuperar todos los documentos relevantes con respeto a la totalidad de los existentes en la colección, de acuerdo a los condicionantes y especificaciones.

· Relevancia:

Un mismo documento puede ser considerado relevantes o no relevante, por dos personas distintas en función de los motivos que producen la necesidad de información o del grado de conocimiento que sobre la materia posean ambos.

Aunque puede usarse otra terminología, la voz relevancia parece la mas apropiada para indicar la relcion entre un documento y una petición de información afectuada por un usuario, auqnue puede resultar erróneo resumir que ese grado de relación es fijo einvariable.

Es el grado de importancia y significación que concede el usuario a los resultados obtenidos en un sistema de información.

· Rendimiento:

Es un factor para la evaluación de un sistema de recuperación de información, que se obtiene evaluando la pertinencia y con exhaustividad de los resultados generados por un conjunto de consultas de prueba en la colección de referencia, con respecto a las soluciones.

SISTEMA DE RECUPERACION DE INFORMACIÓN:

· Tarea de recuperación

Aquellas rutinas de algorítmicas ejecutadas por el sistema de información en respuesta a una solicitud del usuario.

Algoritmo de recuperación

Es el conjunto de métodos documentales, rutinas de tratamiento de información y procedimientos automáticos de tipo matemático.estadisticos, ya predefinidos en el funcionamiento de un programa informático, tales como la depuración. Él ordena en que se ejecutan y la experiencia del usuario, son factores que influyen en la ejecución de los algoritmos.

· Filtrado:

Proceso de refinamiento y perfección de la consulta del usuario por el que delimita o amplia la búsqueda original.

· Coincidencia exacta:

Es el mecanismo por el cual solo los documentos que satisfacen algunos criterios y rasgos bien especificados en la consulta son recuperados y devueltos al usuario como una respuesta inequívoca.

· Recuperación de datos:

La recuperación de elementos cuyo contenido cumple los requisitos especificados en una consulta de usuario basada en una expresión regular o por coincidencia de patrones.

¿COMO SON LO SISTEMAS DE ALMACENAMIENTO DE HOY EN DÍA?

SISTEMAS DE ALMACENAMIENTO ACTUALES:

UN POCO DE HISTORIA PARA PONERNOS EN SITUACIÓN COMO SIEMPRE:

Los sistemas de archivos surgieron de la necesidad de almacenamiento de la información para poder reutilizarla más tarde. Pero presentaba inconvenientes ya que los datos se repiten y los archivos no se combinan con facilidad.

Debido a las debilidades de los sistemas de archivos surgieron los Sistemas de Bases de Datos.

Los sistemas de Bases de Datos se caracterizan por soportar varios modelos de datos, manejar la persistencia, utiliza un lenguaje de alto nivel que permita manipular y definir la estructura de la información, control del acceso al sistema y evita inconsistencias al compartir la información.

Si aplicamos todo lo anterior al funcionamiento de una empresa:

¿QUE ES UNA BASE DE DATOS?

“Una base de datos es un conjunto estructurado de datos coherentes.”

Terminas de leer la definición y parece que es muy ambigua y general, y por eso decido explicarte como debes “traducir” cada palabra.

Con la palabra conjunto nos referimos a una colección disponible de información.

Estructurado es una colección organizada en subconjuntos, es decir, en función de ligas y de relaciones entre las diferentes informaciones, formando una estructura lógica.

Con la palabra coherencia me refiero a que no se contradicen los datos ligados, es decir, no hay perdida de información, aun sabiendo que hay una utilización compartida de los datos entre varios usuarios.

VOCABULARIO BÁSICO SI NO QUIERES SER UN “NEGADO” MAS:

Los datos que es sobre lo que se construyen las bases de datos, son hechos conocidos que pueden registrarse y que tienen un significado implícito, como por ejemplo un número, un nombre o una dirección.

Una entidad es aquello que interesa guardar (clientes, facturas, productos, empleados…).

Claves primarias y foráneas: cada entidad tiene una clave primaria o un campo llave que identifica al conjunto de datos. Cuando en una entidad figura la clave primaria de otra entidad, está se denomina clave foránea. Las entidades se relacionan entre sí a través de las claves foráneas.

Los metadatos son datos sobre unos datos ya presentes en la base de datos.

Pero lo más importante, por lo menos sabrás que es un Sistema de Gestión de Datos, ¿no?

Por si alguna casualidad, no lo sabes te contaré que es un software que permite manipular o reorganizar una base de datos.

LOS DISTINTOS TIPOS DE ALMACENAMIENTO SON:

Discos Duros

Dispositivo de almacenamiento de datos no volátil. Existen dos tipos: magnéticos (HD) y de estado sólido (SSD). Las diferencias principales entre ambos son la velocidad a la cual se accede a los datos, el tiempo de vida del dispositivo y el precio, los discos SSD son mucho más rápidos que los magnéticos, pero tienen un tiempo de vida menor y el precio por unidad de almacenamiento es mucho mayor.

Cintas Magnéticas

Es el método de almacenamiento más barato, se utiliza en los casos en los que no entran en juego factores decisivos de rendimiento, siendo valorado en este caso el factor de fiabilidad. Es el medio más utilizado para la creación de backups.

NAS

Del inglés Network Attached Storage. Recurso diseñado para ser conectado a la red, con el objetivo de proporcionar a los dispositivos que se encuentran en ella capacidad de almacenamiento. Proporciona soporte de copias de seguridad y cifrado de datos

SAN

Del inglés Storage Area Network. Se trata de una red dedicada, que conecta dispositivos de almacenamiento en red, con el objetivo de proporcionar al usuario un interfaz de almacenamiento unificado.

LOS SISTEMAS DE ALMACENAMIENTO ACTUALES SON:

§ Microsoft SQL Server: es una base de datos más potente que access desarrollada por Microsoft. Se utiliza para manejar grandes volúmenes de informaciones.

§ PostgreSql y Oracle: Son sistemas de base de datos poderosos. Administra muy bien grandes cantidades de datos, y suelen ser utilizadas en intranets y sistemas de gran calibre.

§ MySql: es una base de datos con licencia GPL basada en un servidor. Se caracteriza por su rapidez. No es recomendable usar para grandes volúmenes de datos.

§ Access: Es una base de datos desarrollada por Microsoft. Esta base de datos, debe ser creada bajo el programa access, el cual crea un archivo .mdb con la estructura ya explicada.

SISTEMA DE GESTIÓN DE BASE DE DATOS:

Los Sistemas de Gestión de Bases de Datos se caracterizan principalmente por la independencia entre un dato y otro y de forma eficiente y organizada. Los SGBD deben cumplir las propiedades ACID:

a) Atomicidad: las transacciones son atómicas.

b) Consistencia: una transacción transforma un estado consistente de la BD en otro.

c) Aislamiento: las transacciones están aisladas entre sí.

d) Durabilidad: después de que se confirme una transacción, esta persiste.

Cuando se diseña una base de datos interesa definir una estructura. La estructura permanece estática durante un tiempo aunque sufra pequeñas modificaciones de forma esporádica.

Una instancia es la información que en un instante de tiempo posee la base de datos y que cambia permanentemente.

FUNCIONES Y COMPONENTES DE UN SGBD:

o Los componentes principales son:
a) Metadatos: contiene el esquema de Base de Datos, los usuarios, los permisos… Son datos sobre los datos. Almacena la información que permite traducción entre los tres niveles.

b) Manejador de transacciones: controla el acceso y la concurrencia de operaciones.

c)Optimizador de consultas: define el plan de ejecución de operaciones solicitadas por los usuarios, de tal manera que se lleven a cabo de la manera más eficiente posible.

d)Manejador de almacenamiento: hay dos sub-componentes:

Manejador de archivos: recupera desde disco los bloques que contienen la información solicitada por una transacción.

e) Manejador de buffer: mantiene en memoria principal la información más usada y decide cuando llevar a disco alguno de sus bloques.

o Ahora vamos comprender las funciones principales:

a) Soporta DML: lenguaje para actualización, almacenamiento y recuperación de datos.

b) Ofrece optimización en la búsqueda de la información.

c) Soporta DDL: lenguaje para definir los datos.

d) Metadatos: catálogo auto-descriptivo, información sobre los objetos existentes en el sistema.

VENTAJAS Y DESVENTAJAS DE UN SISTEMA DE GESTIÓN DE BASE DE DATOS:

Las ventajas de un Sistema de gestión de Bases de Datos frente al sistema tradicional de almacenamiento de datos son:

1. Reutilización de datos y programas.

2. Control de redundancia.

3. Estandarización.

4. Consistencia.

5. Es posible equilibrar las cargar de los requerimientos, es decir, establecer prioridades.

6. Integridad, osea, se cumplen las reglas pre-establecidas.

7. Seguridad.

8. Rapidez de desarrollo.

9. Mantenimiento y reingeniería: cambios en la estructura de datos sin cambiar los programas que los usan.

Ahora bien, también presenta desventajas

1. El tamaño no se puede modificar y tampoco debe ser demasiado grande.

2. Susceptibilidad a fallos.

3. Complejidad en la recuperación a fallos.

4. Puede llegar a trabajar “lento” debido a la cantidad de verificaciones y comprobaciones previas al resultado final.

TENDENCIAS DE LOS SISTEMAS DE GESTIÓN DE BASES DE DATOS:

ü Sistemas para el soporte para tomar decisiones y/o con capacidades deductivas y bases de datos temporales.

ü Manejar información multimedial: imágenes, audio, videos…

ü Bases de datos orientadas a objetos y objeto-relacionales.

ü Manejar información georeferenciada: sistemas de información geográficos.

ü Manejo de información documental: motores de búsqueda, sistemas para el manejo de documentos…

ü Bases de datos nativas para XML.

¿CUÁL ES EL FUTORO DE LOS SISTEMAS DE ALMACENAMIENTO?

Las tecnologías futuras, se cree que la ya impuesta tecnología por SONY conocida como láser azul, será el camino que tome la computación y el almacenamiento de datos en los próximos años. Cuando empezamos a pensar en los discos ópticos, CD y DVD, como una cosa del pasado y los formatos como el Blu-ray están casi en vías de extinción, Sony y Panasonic han presentado un nuevo formato de disco orientado al archivo de datos, más que a la reproducción de contenidos multimedia, que se ha bautizado como “Archival Disc” y que permitirá almacenar en un disco óptico similar a un Blu-ray actual entre 300 GB y hasta 1 TB de información

Y, por último, de los últimos hallazgos, los científicos de la Universidad de Harvard han demostrado que una sola molécula de ADN se puede escribir 643 KB de datos, lo que significa que un milímetro cúbico de ADN puede almacenar 5,5 petabit, o libros sobre 70000000000, y cuatro gramos de ADN puede contener toda la información creada por los la humanidad para el año, es decir, alrededor de 1,8 zettabyte (miles de millones TB). El ácido desoxirribonucleico (ADN), que es esencial para el funcionamiento de todos los organismos vivos, tiene una gran capacidad de almacenamiento.