¿HAS PERDIDO
INFORMACIÓN IMPORTANTE DE TU PC Y DESEAS RECUPERARLA?
En este blog vamos a explicar de manera clara y sencilla
como recuperar archivos y cualquier otro tipo de información de tu ordenador.
La búsqueda y recuperación de la información, es la ciencia
de la búsqueda de información en documentos electrónicos y cualquier tipo de
colección digital, encargada de la búsqueda de metadatos que describan
documentos, o también la búsqueda de datos relacionales, a través de internet,
y como objetivo realiza al recuperación en textos, imágenes, sonido o datos de
otras características.
Para alcanzar su objetivo de recuperación se sustenta en los
sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos
para determinar el criterio de búsqueda, la relevancia y pertinencia de los
términos, en conjunto con la informática.
Un proceso de recuperación de información comienza cuando un
usuario hace una consulta al sistema. Una consulta a su vez es una afirmación
formal de la necesidad de una información. En la recuperación de información
una consulta no identifica únicamente a un objeto dentro de la colección. De hecho,
varios objetos pueden ser respuesta a una consulta con diferentes grados de
relevancia.
Un objeto es una identidad que está representada por
información en una base de datos. En dependencia de la aplicación estos objetos
pueden ser archivos de texto, imágenes, audio, mapas…
La mayoría de los sistemas de recuperación de información
computan un ranking para saber cuán bien cada objeto responde a la consulta,
ordenando los de acuerdo a su valor de ranking. Los objetos con mayor ranking son
mostrados a los usuarios y el proceso puede tener otras iteraciones si el
usuario desea refinar su consulta.
TIPOS DE MODELOS:
Para recuperar los documentos relevantes por estrategias de recuperación de información, los documentos son transformados en una representación lógica de los mismos. Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de los documentos.
La figura a la
derecha ilustra la relación entre algunos de los modelos más comunes.
Los modelos están categorizados de acuerdo a dos
dimensiones: la base matemática y las propiedades de los modelos.
Primera dimensión: Base matemática
·
Modelos basados en Teoría de Conjuntos: los
documentos se representan como un conjunto de palabras o frases.
a)
Modelo Booleano:
b)
Modelo Booleano Extendido
c)
Modelo Fuzzy
·
Modelos algebraicos: en estos modelos los
documentos y las consultas se representan como vectores, matrices o tupas. La
similitud entre un documento y una consulta se representa por un escalar.
Dentro de ellos tenemos:
a)
Modelo Vectorial
b)
Modelo Vectorial Generalizado
c)
Modelo Booleano Extendido
d)
Indexación Semántica Latente.
·
Modelos probabilísticos: tratan el proceso de
recuperación de documentos como una interferencia probabilística. Las
similitudes son calculadas como las probabilidades de que un documento sea
relevante dada una consulta.
a)
Modelo de la independencia binaria
b)
Modelo de Relevancia Probabilístico
c)
Redes de Inferencia
d)
Redes de Creencia
Segunda dimensión: Propiedades de los modelos
·
Modelos sin independencia entre términos: tratan
a los términos como si fueran independientes.
·
Modelos con dependencia entre términos.
·
LA CONSULTA:
a)
Necesidad de información:
Es la
declaración en lenguaje natural de la información que requiere el usuario para
el desempeño de sus actividades y funciones.
b)
Consulta del usuario:
Es la expresión con la que se
configura la demanda informativa del usuario, por regla general, en lenguaje
natural, utilizando términos y palabras que le resultan más aproximados al
objeto de recuperación.
c)
Formulación del sistema:
Procesamiento
y reformulación de la consulta del usuario que implica su descomposición en
términos unitarios, procesos de reducción, eliminación de signos, eliminación
de palabras vacías, sustitución y adición de términos normalizados. Finalmente
una vez depurada y adaptada al consulta, se aplica el logaritmo de
recuperación.
d)
Consulta del sistema:
Es el resultado
de la formulación del sistema partiendo de la consulta del usuario. Por regla
general una sentencia de consulta optimizada para la recuperación en el sistema
de información que equivale a la expresada por el usuario en lenguaje natural.
e)
Expansión de consulta:
Es un
proceso de reformulación automática del sistema que permite añadir nuevos términos a la clustering,
que determinan la frecuencia de aparición de un grupo de términos contiguos,
relacionados con la consulta del usuario, presentes en documentos clasificados
dentro de un mismo ámbito temático y en torno a toda la colección.
f)
Patrón:
Expresión
sintáctica que define una serie de caracteres textuales, alfabéticos, numéricos
y especiales, que se ajustarán por coincidencia en una palabra o término de un
texto determinado.
g)
Expresión regular:
También
conocidas como REGEXP y POSIX, son aquellas expresiones sintácticas complejas y
normalizadas compuestas a base de patrones.
LA BASE DE CONOCIMIENTO:
·
Colección:
Es
sinónimo de base de conocimiento, fonde de biblioteca ó corpues documental. El
concepto colección hace referencia a un compendio de documentos seleccionados y
obtenidos mediante métodos de webcrawling.
·
Colección de referencia:
Aquella
colección utilizada para la experimentación de los modelos de recuperación y
sus logaritmos. Ello implica la disposición de plantillas de resultados con los
documentos relevantes para cada consulta de prueba.
·
Documento:
Elemento
básico con el que se conforman las colecciones y unidad básica de recuperación
como artiuclos o monografías.
Documento sustituto:
Simil
de un documento de una colección, fiel a sus contenidos mediante sus elementos
básicos como título,resumen… Se utiliza en las páginas de resultados, en
procesos de visualización y representación.
·
TREC:
Una de
las colecciones de referencia más importantes a nivel internacional que
contiene mas de un millón de documentos y que se usa por especialistas.
Depuración e Indexación:
·
Depuración:
Procesos
por los que los textos de los documentos de una colección son preparados para
su posterior indexación, almacenamiento y recuperación. Tales procesos son la
eliminación de signos, sustitución de caracteres, escapado de comillas,
eliminación de palabras vacías.
·
Palabras vacías:
Las
palabras vacías o Stopwords, son aquellas palabras cuya frecuencia de aparición
en el texto del documento resulta muy elevada y cuyo significado es nulo.
·
Reducción:
Se
denomina proceso de reducción o streamming a la técnica especializada en
reducir palabras a sus raíces gramaticales.
·
Indexación:
Proceso
especializado en la elaboración de un índice ordenador de todas las palabras de
un texto, una vez este fuere depurado, generando con ellos un fichero inverso
que almacena la posición de los términos en cada documento en la colección
indexada. Este proceso permite a bases de datos y motores e búsqueda realizar
consultas rapidas y sistemáticas.
·
Fulltex:
Texto completo o fulltex es un método de indexación por el que todas las palabras que componen el texto del documento se utilizan como términos de indexación.
Texto completo o fulltex es un método de indexación por el que todas las palabras que componen el texto del documento se utilizan como términos de indexación.
EVALUACION Y RESULTADOS DE LA RECUPERACION:
·
Precisión:
En
recuperación de información, precisión es la medida que define
cuantitativamente la relación entre los documentos recuperados y su relevancia
para satisfacer la consulta del usuario.
·
Exhaustividad
También
llamado Recall es la capacidad del sistema para recuperar todos los documentos
relevantes con respeto a la totalidad de los existentes en la colección, de acuerdo
a los condicionantes y especificaciones.
·
Relevancia:
Un
mismo documento puede ser considerado relevantes o no relevante, por dos
personas distintas en función de los motivos que producen la necesidad de
información o del grado de conocimiento que sobre la materia posean ambos.
Aunque puede usarse otra terminología, la voz relevancia
parece la mas apropiada para indicar la relcion entre un documento y una
petición de información afectuada por un usuario, auqnue puede resultar erróneo
resumir que ese grado de relación es fijo einvariable.
Es el grado de importancia y significación que concede el usuario a los resultados
obtenidos en un sistema de información.
·
Rendimiento:
Es un
factor para la evaluación de un sistema de recuperación de información, que se
obtiene evaluando la pertinencia y con exhaustividad de los resultados
generados por un conjunto de consultas de prueba en la colección de referencia,
con respecto a las soluciones.
SISTEMA DE RECUPERACION DE INFORMACIÓN:
·
Tarea de recuperación
Aquellas
rutinas de algorítmicas ejecutadas por el sistema de información en respuesta a
una solicitud del usuario.
Algoritmo de recuperación
Es el
conjunto de métodos documentales, rutinas de tratamiento de información y
procedimientos automáticos de tipo matemático.estadisticos, ya predefinidos en
el funcionamiento de un programa informático, tales como la depuración. Él
ordena en que se ejecutan y la experiencia del usuario, son factores que
influyen en la ejecución de los algoritmos.
·
Filtrado:
Proceso
de refinamiento y perfección de la consulta del usuario por el que delimita o
amplia la búsqueda original.
·
Coincidencia exacta:
Es el
mecanismo por el cual solo los documentos que satisfacen algunos criterios y
rasgos bien especificados en la consulta son recuperados y devueltos al usuario
como una respuesta inequívoca.
·
Recuperación de datos:
La
recuperación de elementos cuyo contenido cumple los requisitos especificados en
una consulta de usuario basada en una expresión regular o por coincidencia de
patrones.