Crawling y Scraping

Recuperación de la Información [1] se define como encontrar un material (usualmente documentos) de naturaleza no estructurada (usualmente texto) que satisface las necesidades de información desde una gran colección (usualmente guardado en computadoras). Recuperación de la información es la forma dominante para acceder a la información en esta época de grandes colecciones de datos en la nube, redes sociales, e-gobernanza, entre otros repositorios de datos.

Dado el crecimiento desmesurado de la web, la búsqueda y recuperación de información usa programas o robot (bot, aféresis de robot) para hacer realizar búsquedas de manera automáticas y reiterativas para acceder a los documentos almacenados en la páginas web. Ejemplos de estos bot son los rastreadores web ( Web Crawler) que recorren los sitios web de forma automática y recopilan información de los mismos mucho más rápida y efectivamente de lo que lo haría una persona. Otro tipo de bot son los que se dedican al raspado web (Web Scraper) y que extraen información de un sitio web.

Web Crawler

El objetivo de crawling es recopilar de manera rápida y eficiente tantas páginas web útiles como sea posible, junto con la estructura de enlace que los interconecta. Son programas que buscan y descargan páginas siguiendo los Hiperlink.

Operan de la siguiente manera (ver figura 1): visitan una lista de URLs, indentifica los hiperenlaces que aparecen en las páginas y los registra en una cola de URLs por visitar. El web crawler inicia la descarga, a través del downloader multi-hilo, de una serie de direcciones iniciales que le son propocionadas, analiza las páginas y busca enlaces a páginas nuevas añadiendolas a la cola. Luego, descarga estas nuevas páginas, analiza sus enlaces y así sucesivamente.

Figura 1. Arquitectura de Web Crawler. Tomado [3]

Web Scraping

Alguno de los usos del web scraping [4] son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs.

Referencias:

MLA (7th ed.) Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schu tze. Introduction to Information Retrieval. New York: Cambridge University Press, 2008.
WIREs Data Mining Knowl Discov 2017, el218, doi:10.1002/widm.1218
Wikipedia contributors. (2022, April 12). Web crawler. In Wikipedia, The Free Encyclopedia. Retrieved 22:48, May 30, 2022, from https://en.wikipedia.org/w/index.php?title=Web_crawler&oldid=1082281684
Web scraping. (2022, 20 de mayo). Wikipedia, La enciclopedia libre. Fecha de consulta: 22:51, mayo 30, 2022 desde https://es.wikipedia.org/w/index.php?title=Web_scraping&oldid=143659932.

En Wikipedia el prólogo esta definido como un breve texto preliminar de un libro, escrito por el autor o por otra persona, que sirve de introducción a su lectura. Sirve para justificar la aportación al haberla compuesto y al lector para orientarse en la lectura o disfrute de ella. Su definición indica que quien lo escribe hace referencia a un escrito ya nacido.

Pero un blog o bitácora no es igual a una obra literaria. Un blog se alimenta de escritos personales de sus autores y el orden de presentación de su contenido esta orientado a la publicación mas reciente. De manera que este en este pretendido prólogo busco presentar el propósito de este blog. Apuntes de Informática es un blog personal que presentará mis temas asociados con el área de la Tecnología de Información, además de otras áreas que sean de mi atención.

Veamos hasta donde nos lleva esto!

Apuntes en Informática

mayo 30, 2022

Bots en la web

Crawling y Scraping

Web Crawler

Web Scraping

Referencias:

mayo 26, 2022

A manera de Prólogo