El blog de Ramón Vera: ¿HAS PERDIDO INFORMACIÓN IMPORTANTE DE TU PC Y DESEAS RECUPERARLA?

¿HAS PERDIDO INFORMACIÓN IMPORTANTE DE TU PC Y DESEAS RECUPERARLA?

En este blog vamos a explicar de manera clara y sencilla como recuperar archivos y cualquier otro tipo de información de tu ordenador.

La búsqueda y recuperación de la información, es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección digital, encargada de la búsqueda de metadatos que describan documentos, o también la búsqueda de datos relacionales, a través de internet, y como objetivo realiza al recuperación en textos, imágenes, sonido o datos de otras características.

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar el criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Un proceso de recuperación de información comienza cuando un usuario hace una consulta al sistema. Una consulta a su vez es una afirmación formal de la necesidad de una información. En la recuperación de información una consulta no identifica únicamente a un objeto dentro de la colección. De hecho, varios objetos pueden ser respuesta a una consulta con diferentes grados de relevancia.

Un objeto es una identidad que está representada por información en una base de datos. En dependencia de la aplicación estos objetos pueden ser archivos de texto, imágenes, audio, mapas…

Muy a menudo los documentos no están almacenados en el sistema de recuperación de información, sino que están representados lógicamente.

La mayoría de los sistemas de recuperación de información computan un ranking para saber cuán bien cada objeto responde a la consulta, ordenando los de acuerdo a su valor de ranking. Los objetos con mayor ranking son mostrados a los usuarios y el proceso puede tener otras iteraciones si el usuario desea refinar su consulta.

TIPOS DE MODELOS:

Para recuperar los documentos relevantes por estrategias de recuperación de información, los documentos son transformados en una representación lógica de los mismos. Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de los documentos.

La figura a la derecha ilustra la relación entre algunos de los modelos más comunes.

Los modelos están categorizados de acuerdo a dos dimensiones: la base matemática y las propiedades de los modelos.

Primera dimensión: Base matemática

· Modelos basados en Teoría de Conjuntos: los documentos se representan como un conjunto de palabras o frases.

a) Modelo Booleano:

b) Modelo Booleano Extendido

c) Modelo Fuzzy

· Modelos algebraicos: en estos modelos los documentos y las consultas se representan como vectores, matrices o tupas. La similitud entre un documento y una consulta se representa por un escalar. Dentro de ellos tenemos:

a) Modelo Vectorial

b) Modelo Vectorial Generalizado

c) Modelo Booleano Extendido

d) Indexación Semántica Latente.

· Modelos probabilísticos: tratan el proceso de recuperación de documentos como una interferencia probabilística. Las similitudes son calculadas como las probabilidades de que un documento sea relevante dada una consulta.

a) Modelo de la independencia binaria

b) Modelo de Relevancia Probabilístico

c) Redes de Inferencia

d) Redes de Creencia

Segunda dimensión: Propiedades de los modelos

· Modelos sin independencia entre términos: tratan a los términos como si fueran independientes.

· Modelos con dependencia entre términos.

AHORA VAMOS A EXPLICAR PASO A PASO COMO RECUPERAR LA INFORMACIÓN DESDE EL MOMENTO EN QUE NOSOTROS LA CREAMOS:

· LA CONSULTA:

a) Necesidad de información:

Es la declaración en lenguaje natural de la información que requiere el usuario para el desempeño de sus actividades y funciones.

b) Consulta del usuario:

Es la expresión con la que se configura la demanda informativa del usuario, por regla general, en lenguaje natural, utilizando términos y palabras que le resultan más aproximados al objeto de recuperación.

c) Formulación del sistema:

Procesamiento y reformulación de la consulta del usuario que implica su descomposición en términos unitarios, procesos de reducción, eliminación de signos, eliminación de palabras vacías, sustitución y adición de términos normalizados. Finalmente una vez depurada y adaptada al consulta, se aplica el logaritmo de recuperación.

d) Consulta del sistema:

Es el resultado de la formulación del sistema partiendo de la consulta del usuario. Por regla general una sentencia de consulta optimizada para la recuperación en el sistema de información que equivale a la expresada por el usuario en lenguaje natural.

e) Expansión de consulta:

Es un proceso de reformulación automática del sistema que permite añadir nuevos términos a la clustering, que determinan la frecuencia de aparición de un grupo de términos contiguos, relacionados con la consulta del usuario, presentes en documentos clasificados dentro de un mismo ámbito temático y en torno a toda la colección.

f) Patrón:

Expresión sintáctica que define una serie de caracteres textuales, alfabéticos, numéricos y especiales, que se ajustarán por coincidencia en una palabra o término de un texto determinado.

g) Expresión regular:

También conocidas como REGEXP y POSIX, son aquellas expresiones sintácticas complejas y normalizadas compuestas a base de patrones.

LA BASE DE CONOCIMIENTO:

· Colección:

Es sinónimo de base de conocimiento, fonde de biblioteca ó corpues documental. El concepto colección hace referencia a un compendio de documentos seleccionados y obtenidos mediante métodos de webcrawling.

· Colección de referencia:

Aquella colección utilizada para la experimentación de los modelos de recuperación y sus logaritmos. Ello implica la disposición de plantillas de resultados con los documentos relevantes para cada consulta de prueba.

· Documento:

Elemento básico con el que se conforman las colecciones y unidad básica de recuperación como artiuclos o monografías.

Documento sustituto:

Simil de un documento de una colección, fiel a sus contenidos mediante sus elementos básicos como título,resumen… Se utiliza en las páginas de resultados, en procesos de visualización y representación.

· TREC:

Una de las colecciones de referencia más importantes a nivel internacional que contiene mas de un millón de documentos y que se usa por especialistas.

Depuración e Indexación:

· Depuración:

Procesos por los que los textos de los documentos de una colección son preparados para su posterior indexación, almacenamiento y recuperación. Tales procesos son la eliminación de signos, sustitución de caracteres, escapado de comillas, eliminación de palabras vacías.

· Palabras vacías:

Las palabras vacías o Stopwords, son aquellas palabras cuya frecuencia de aparición en el texto del documento resulta muy elevada y cuyo significado es nulo.

· Reducción:

Se denomina proceso de reducción o streamming a la técnica especializada en reducir palabras a sus raíces gramaticales.

· Indexación:

Proceso especializado en la elaboración de un índice ordenador de todas las palabras de un texto, una vez este fuere depurado, generando con ellos un fichero inverso que almacena la posición de los términos en cada documento en la colección indexada. Este proceso permite a bases de datos y motores e búsqueda realizar consultas rapidas y sistemáticas.

· Fulltex:
Texto completo o fulltex es un método de indexación por el que todas las palabras que componen el texto del documento se utilizan como términos de indexación.

EVALUACION Y RESULTADOS DE LA RECUPERACION:

· Precisión:

En recuperación de información, precisión es la medida que define cuantitativamente la relación entre los documentos recuperados y su relevancia para satisfacer la consulta del usuario.

· Exhaustividad

También llamado Recall es la capacidad del sistema para recuperar todos los documentos relevantes con respeto a la totalidad de los existentes en la colección, de acuerdo a los condicionantes y especificaciones.

· Relevancia:

Un mismo documento puede ser considerado relevantes o no relevante, por dos personas distintas en función de los motivos que producen la necesidad de información o del grado de conocimiento que sobre la materia posean ambos.

Aunque puede usarse otra terminología, la voz relevancia parece la mas apropiada para indicar la relcion entre un documento y una petición de información afectuada por un usuario, auqnue puede resultar erróneo resumir que ese grado de relación es fijo einvariable.

Es el grado de importancia y significación que concede el usuario a los resultados obtenidos en un sistema de información.

· Rendimiento:

Es un factor para la evaluación de un sistema de recuperación de información, que se obtiene evaluando la pertinencia y con exhaustividad de los resultados generados por un conjunto de consultas de prueba en la colección de referencia, con respecto a las soluciones.

SISTEMA DE RECUPERACION DE INFORMACIÓN:

· Tarea de recuperación

Aquellas rutinas de algorítmicas ejecutadas por el sistema de información en respuesta a una solicitud del usuario.

Algoritmo de recuperación

Es el conjunto de métodos documentales, rutinas de tratamiento de información y procedimientos automáticos de tipo matemático.estadisticos, ya predefinidos en el funcionamiento de un programa informático, tales como la depuración. Él ordena en que se ejecutan y la experiencia del usuario, son factores que influyen en la ejecución de los algoritmos.

· Filtrado:

Proceso de refinamiento y perfección de la consulta del usuario por el que delimita o amplia la búsqueda original.

· Coincidencia exacta:

Es el mecanismo por el cual solo los documentos que satisfacen algunos criterios y rasgos bien especificados en la consulta son recuperados y devueltos al usuario como una respuesta inequívoca.

· Recuperación de datos:

La recuperación de elementos cuyo contenido cumple los requisitos especificados en una consulta de usuario basada en una expresión regular o por coincidencia de patrones.

El blog de Ramón Vera

domingo, 23 de abril de 2017

¿HAS PERDIDO INFORMACIÓN IMPORTANTE DE TU PC Y DESEAS RECUPERARLA?

No hay comentarios:

Publicar un comentario