Recuperación de la Información

domingo, 30 de junio de 2013

Enlaces

JSTOR: http://www.jstor.org/

Perseus Digital Library: http://www.perseus.tufts.edu/hopper/ Sobre grecia clásica.

Dublin core: <http://purl.oclc.org/metadata/dublin_core/> para estructurar y estandarizar datos descripivos.

http://bibeci.blogspot.com.ar/ Biblioteca de ciencias de la Información

http://books.google.com.ar/books?id=y1l9jYxMKZ0C&lpg=PA85&ots=PxFp4bW5lT&dq=plan%20de%20viviendas%2017%20de%20octubre&hl=es&pg=PA17#v=onepage&q&f=false
plan de viviendas

martes, 4 de junio de 2013

Conceptos

Recuperación de la Información

La recuperación de información es aquella ciencia que se ocupa de la búsqueda de información en documentos, de la búsqueda de los mismos, en bases de datos y en aquellos documentos en donde se describa la información solicitada.
Esta ciencia requiere de la construcción de un vocabulario constituido por una serie de términos del lenguaje natural.

Desde Definicion ABC: http://www.definicionabc.com/general/recuperacion.php#ixzz2V03Vp3zy

De Wikipedia:

La recuperación de información es un estudio interdisciplinario. Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva la arquitectura de la información, diseño de la información, inteligencia artificial, ligüística, semiótica, biblioteconomía, archivística y documentación.Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Baeza – Yates (1999): Parte de la informática que estudia la recuperación de la información (no datos) de una colección de documentos escritos. Los documentos recuperados pueden satisfacer una necesidad de información de un usuario expresada normalmente en lenguaje natural.

Salton (1983): Un sistema de recuperación de información procesa archivos de registros y peticiones de información, e identifica y recupera de los archivos ciertos registros en respuesta a las peticiones de información.

Extraído de Giordano, E. P. (s/f). Tratamiento Automático de la Información 2: Sistemas de recuperación de información. Buenos Aires.

lunes, 3 de junio de 2013

Historia

La idea del uso de computadoras para la búsqueda de trozos relevantes de información se popularizó a raíz de un artículo As We May Think de Vannevar Bush en el año 1945.

Artículo "As We May Think"

El termino Recuperación de Información, fue mencionado por primera vez hacia el año 1950, cuando Calvin N. Moores lo definió como "la búsqueda de información en un stock de documentos, efectuado a partir de la especificación de un tema".

Hacia finales de los años 50 y comienzos de los 60, se dio inicio a otra época, cuya característica está enfocada en experimentos que se hacen en torno a la Recuperación de Informacion, construyendo los primeros Sistemas de Informacion a gran escala. Un hito muy importante en esta época, y que claramente marcó el desarrollo del concepto, fue la celebración en Washington, en 1958, de la Conferencia Internacional sobre Informacion Científica,que posiblemente marcara el comienzo de la Recuperación de Información tal como la podemos evidenciar hoy día.

En los años 70, comenzará la época de la madurez de la Recuperación de Informacion, teniendo que las dos características principales de esta época son:

• El nacimiento y posicionamiento de la Información Online, haciendo provecho de los primeros Sistemas de Recuperación de Información, y

• Refinamiento de las ideas y modelos estadísticos experimentados en años anteriores y su consolidación básicamente en dos modelos: los Modelos Vectoriales y los Modelos Probalísticos.

La etapa comprendida entre los anos de 1980 y 1990, se caracteriza por la rápida expansión de internet, la aparición de softwares más sofisticados para la Recuperación de Información, y la aparición de las Bases de Datos en CD-Rom. En esta época se da un giro en lo que al concepto se refiere, ahora centrado en el usuario como pieza clave en la Recuperación de Información.

Computadora de 1981:

La etapa comprendida entre 1990 y 2000, se caracteriza por la aparición de las computadoras personales; el desarrollo de motores de búsqueda, que buscan facilitar el acceso al usuario final y favorecer la interacción entre el usuario y el sistema.
Computadora personal de 1990:

En el año 2000 hasta el 2010, evolución informática, las computadoras evolucionaron con mayor capacidad, menor tamaño. Las unidades de información empezaron a hacer parte de esta evolución, poniendo al servicio de los usuarios muchos de los documentos de sus colecciones. Otra de las características, es la facilidad de búsqueda, la interfaces de fácil uso, que prácticamente adivinan o por lo menos se acercan a lo que se está buscando, han hecho que sea más compleja la Recuperación de Información.

Computadora del 2000:

Historia de sistemas de información:

domingo, 2 de junio de 2013

La problemática de la recuperación de la información

El problema de la RI es estudiado desde: el computacional y el humano.
El computacional tiene que ver con la construcción de estructuras de datos y algoritmos eficientes que mejores la calidad de las respuestas.

El humano tiene que ver con el estudio del comportamiento y de las necesidades de los usuarios.

Vista la recuperación de información desde un nivel de abstracción, se puede establecer que:

Existe una colección de documentos que contienen información de interés (sobre uno o varios temas)

Existen usuarios con necesidades de información, quienes plantean al SRI en forma de una consulta (query).

Como respuesta el sistema devuelva referencias a documentos relevantes.

Recuperación de la información

Recuperacion from Ana Quiroga

viernes, 31 de mayo de 2013

Relevancia

La relevancia en un documento está dada en función a cuando éste satisface una necesidad de información, por medio de una consulta. Un documento es relevante cuando la información que este posee es significativa o de importancia para el usuario.

Bibliografía: Martínez Méndez, F. J. (2004). Recuperación de información: modelos, sistemas y evaluación. Murcia: KIOSKO JMC.

jueves, 30 de mayo de 2013

Modelos de recuperación de la información

Un modelo es una representación abstracta de un proceso de RI. Desde una necesidad de información y una colección de documentos, el modelo intentará predecir si un documento puede ser considerado relevante o no, y en qué grado.

La principal clasificación para los modelos de RI es la siguiente:

Modelo clásicos: modelos probabilísticos, booleano y vectorial.
Modelos estructurales: entre los que se destacan listas no sobrepuestas y el método de los nodos proximales.

Modelo Booleano: modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente y no pertinente), sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de preguntas. Las consultas se expresan mediante:
AND: intersección de conjuntos.
OR: unión de conjuntos.
NOT: complementario de un conjunto.
Es un modelo muy sencillo, fácil de implementar y formalizar, por eso es el más utilizado por los SRI.
Las principales desventajas de este modelo se centra en su excesiva rigidez. No es posible ordenar los resultados obtenidos y tampoco tiene en cuenta el número de cláusulas verificadas en una consulta de tipo OR.

Modelo Vectorial: este modelo propone un marco en el que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índices de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.
Los documentos recuperados son ordenados en orden decreciente al grado de similitud, tomando en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de respuestas con los documentos alineados es mucho más preciso que el conjunto recuperado por el modelo booleano. La mayoría de los motores de búsqueda lo implementan como estructura de datos.

Modelo Probabilístico: Se basa en la equiparación probabilística, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta. La base principal de su funcionamiento es el cálculo de probabilidad de un documento de ser relevante a una pregunta dada. Debemos considerar la posibilidad de que un documento sea relevante o no, dado que ya haya sido seleccionado.
Los resultados no son mejores que los obtenidos por el modelo booleano y vectorial.

Bibliografía
Gracía Broncano, R. (s./f.). Recuperación y organización de la información. Modelos de recuperación.
Cacheda, F. (2009). Introducción a los modelos clásicos de Recuperación de Información. Revista General de Información Y Documentación, 18, 365-374.
Recuperado de http://revistas.ucm.es/index.php/RGID/article/view/RGID0808110365A/9331