mayo 30, 2022

Bots en la web

 Crawling y  Scraping

    Recuperación de la Información  [1] se define como  encontrar un material (usualmente documentos) de naturaleza no estructurada (usualmente texto) que satisface las necesidades de información desde una gran colección (usualmente guardado en computadoras).  Recuperación de la información es la forma dominante para acceder a la información en esta época de grandes colecciones de datos en la nube, redes sociales, e-gobernanza, entre otros repositorios de datos.
   
     Dado el  crecimiento desmesurado de la web, la búsqueda y recuperación de información  usa programas o robot (bot, aféresis de robot)  para hacer realizar búsquedas  de manera automáticas   y reiterativas para acceder a los documentos almacenados en la páginas web.   Ejemplos de estos bot son los rastreadores web  ( Web Crawlerque recorren los sitios web de forma automática y recopilan información de los mismos mucho más rápida y efectivamente de lo que lo haría una persona. Otro tipo de bot son los que se dedican al raspado web (Web Scraper) y que extraen información de un sitio web. 

Web Crawler

  El objetivo de crawling es recopilar de manera rápida y eficiente tantas páginas web útiles como sea posible, junto con la estructura de enlace que los interconecta.  Son programas que buscan y descargan páginas siguiendo los Hiperlink.

Operan de la siguiente manera (ver figura 1): visitan una lista de  URLs, indentifica los hiperenlaces que aparecen en las páginas y los registra en una cola  de URLs  por  visitar.  El web crawler  inicia la  descarga, a través del downloader multi-hilo, de  una serie de direcciones iniciales que le son propocionadas, analiza las páginas y busca  enlaces a páginas nuevas añadiendolas a la cola. Luego, descarga estas nuevas páginas, analiza sus enlaces y así sucesivamente. 


Figura 1. Arquitectura de Web Crawler. Tomado [3]

Web Scraping

Alguno de los usos del web scraping [4] son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs.

Referencias:

  1. MLA (7th ed.) Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schu tze. Introduction to Information Retrieval. New York: Cambridge University Press, 2008.
  2. WIREs Data Mining Knowl Discov 2017, el218, doi:10.1002/widm.1218 
  3. Wikipedia contributors. (2022, April 12). Web crawler. In Wikipedia, The Free Encyclopedia. Retrieved 22:48, May 30, 2022, from https://en.wikipedia.org/w/index.php?title=Web_crawler&oldid=1082281684
  4. Web scraping. (2022, 20 de mayo). Wikipedia, La enciclopedia libre. Fecha de consulta: 22:51, mayo 30, 2022 desde https://es.wikipedia.org/w/index.php?title=Web_scraping&oldid=143659932.

No hay comentarios.:

Publicar un comentario