Lectura fácil
El scraping de la web implica extraer datos de sitios web utilizando procesos automáticos como bots o rastreadores web. Estos bots exploran las páginas web de manera sistemática para recopilar información específica, que luego se almacena en una base de datos o hoja de cálculo. El término hace referencia a un tipo de "raspado" digital de la web para obtener datos con propósitos de análisis o almacenamiento.
¿Qué es el scraping?
El scraping web implica obtener información de sitios web a través de procesos automatizados, como bots o rastreadores web. Estos bots exploran sistemáticamente las páginas de la World Wide Web, extrayendo datos específicos que luego se almacenan en una base de datos o hoja de cálculo para análisis o recuperación posterior. En esencia, es como realizar un "raspado" digital de la web para obtener datos.
Esta técnica es la base de cómo funcionan los motores de búsqueda en internet. Acceden a las páginas, las descargan, extraen los datos para formatearlos e indexan las páginas, creando así un sistema de búsqueda eficiente. Además, el término ha resurgido en las conversaciones públicas debido a su papel en la creación de IA generativas como ChatGPT. Estas técnicas han permitido desarrollar modelos de lenguaje que impulsan chatbots con inteligencia artificial.
De las arañas a nutrir la Inteligencia Artificial
Desde que, en 1993, Matthew Gray del Instituto Tecnológico de Massachusetts creara el Wanderer, la primera araña web con el único objetivo de conocer el tamaño de la web, la técnica del scraping ha experimentado un crecimiento en su uso. Investigadores, periodistas y desarrolladores, además de los buscadores, han empleado el web con fines de análisis, investigación y educación durante años. Por ejemplo, el New York Times ofrece una serie de APIs que facilitan el scraping para diversos usos, desde listas de enlaces personalizados hasta visualizaciones complejas, siempre y cuando no sean de uso comercial.
En tiempos recientes, las empresas han popularizado el uso de esta técnica para obtener una ventaja competitiva en el análisis y la utilización de datos extraídos de la web pública. La base de datos colaborativa y de libre acceso llamada Wikidata, a la que pertenece Wikipedia, sirve como fuente de información para la inteligencia artificial de múltiples proyectos alrededor del mundo. Gran parte de lo que responden los asistentes virtuales como Alexa o Siri proviene de lecturas en Wikipedia.
En los debates legales sobre la inteligencia artificial, el scraping ha adquirido relevancia, ya que muchos de los grandes modelos de lenguaje se han entrenado con vastas cantidades de contenido "scrapeado" de la web."
Legalidad y minería de datos, ¿cómo son las normativas y desafíos?
El scraping web es esencial en la minería de datos, automatizando el análisis de información digital. En Europa, es legal para investigación científica no comercial y colaboraciones público-privadas. En Estados Unidos, dicha técnica es legal para datos públicos. El uso excesivo en IA generativa ha generado debates legales y de propiedad intelectual. Expertos aún discuten las implicaciones de esta nueva tecnología.
Añadir nuevo comentario