Ir al contenido principal

Las webs están utilizando este método para frenar a los scrapers de IA. El problema: pueden ignorarlo sin esfuerzo

Las webs están utilizando este método para frenar a los scrapers de IA. El problema: pueden ignorarlo sin esfuerzo

Los datos se han convertido en uno de los tesoros más codiciados de estos tiempos. No estamos hablando de cualquier tipo de datos, sino de aquellos que son relevantes para entrenar modelos de lenguaje que impulsan aplicaciones de inteligencia artificial (IA) como ChatGPT de OpenAI, Claude de Anthropic y Gemini de Google.

Una práctica habitual para conseguir datos es el web scraping. Las compañías suelen utilizar bots automatizados (propios o de terceros) para extraer información de millones de páginas web y así preparar enormes conjuntos de datos para alimentar sus algoritmos. Ahora bien, no todo el mundo está de acuerdo con esta dinámica.

Robots.txt como herramienta para frenar a los scrapers

Plataformas de todos los tamaños han comenzado a tomar medidas para evitar que los bots se lleven sus datos sin pedir permiso o sin pagar. The New York Times, que ya interpuso varias demandas, actualizó sus términos y condiciones para cumplir con este objetivo. Reddit, que se alió con algunas compañías, actualizó su archivo robots.txt.

Robots.txt es uno de los recursos más utilizados en la web para administrar la actividad de los bots hambrientos de datos. El problema es que se trata de un conjunto de instrucciones de cumplimiento voluntario. Los bots “malos” pueden ignorar este archivo e incluso utilizarlo como guía para recopilar más fácilmente los datos que se quieren proteger.

Imagínate a robots.txt como un cartel que establece las normas que deben seguir todos aquellos que ingresen a un vecindario. Algunas personas no dudarán en respetarlo, mientras que otras no tendrán problema alguno en ignorarlo. Volviendo al escenario de los bots, parece que hay muchos bots que están haciendo esto último.

Como recoge Financial Times, las plataformas iFixit.com y Freelancer.com han acusado a Anthropic ignorar las instrucciones de robots.txt de no extraer datos. Kyle Wiens, CEO de la primera compañía, dijo que el bot de Anthropic ha hecho saltar todas las alarmas de tráfico que tienen y que han detectado 1 millón de visitas en 24 horas.

Robots Txt Example Ejemplo de un archivo robots.txt

Wiens añadió que los términos de iFixit prohíben el uso de sus datos para tareas de aprendizaje automático, por lo que la actividad detectada por Anthropic puede ser ilegal si la compañía está recopilando datos para entrenar sus modelos de lenguaje. Anthropic, por su parte, ha dicho que su bot respeta las instrucciones de los robots.txt.

Como decimos, la mayoría de las compañías de IA de las que hablamos hoy en día toman datos de la web abierta para entrenar sus modelos de lenguaje. Ahora bien, hay poca información detallada sobre de dónde provienen los datos de muchos modelos populares. OpenAI, por ejemplo, dice que ha entrenado GPT-4 “utilizando tanto datos disponibles públicamente (como datos de Internet) como datos con licencia de proveedores externos”.

Apple, por su parte, dice que entrena sus modelos de IA con “datos con licencia, incluidos los datos seleccionados para mejorar funciones específicas, así como los datos disponibles públicamente recopilados por nuestro rastreador web, AppleBot. Asimismo, la compañía asegura que cumple a rajatabla las directivas de los archivos robots.txt.

Imágenes | Xataka con Bing Image Creator

En Xataka | El precio a pagar por tener IA es el saqueo de todo el contenido de Internet. Y Perplexity es solo el último ejemplo

-
La noticia Las webs están utilizando este método para frenar a los scrapers de IA. El problema: pueden ignorarlo sin esfuerzo fue publicada originalmente en Xataka por Javier Marquez .



from Xataka https://ift.tt/YRKH9bI
via IFTTT

Comentarios

Entradas populares de este blog

Cómo y dónde ver online todo el fútbol 2017-18: comparativa de precios y canales

¿Ya está aquí el fútbol? Sí, ya está aquí el fútbol . El 18 de agosto comienza oficialmente en España LaLiga Santander (o la Liga de Primera División) y la Liga 1|2|3 (Segunda División). A ambas competiciones hay que sumar otras ligas europeas, que también han comenzado ya estos días, y a otras competiciones, que harán lo propio durante las próximas semanas. A continuación recopilamos cómo se distribuyen los derechos de emisión de las principales competiciones de esta temporada, así como las distintas formas de ver el fútbol online desde España . Y ya os damos una pista: por desgracia, no hay demasiadas alternativas... y cada vez son menos. Resumen de canales y derechos para la temporada 2017-2018 Canales de pago: Entre el vaivén de derechos de emisión, exclusividades y distintos canales, el ver al inicio de cada temporada quién emitirá cada competición puede complicarse en exceso. Por eso hemos simplificado al máximo para hacer un resumen de los principales canales y qué ofrecer

Asturias tiene un plan para recuperar viejas minas en desuso: que acojan instalaciones informáticas

Asturias quiere dar nueva vida a viejas minas abandonados. Y quiere hacerlo además cambiando totalmente de tercio, con un enfoque que sonaría a ciencia ficción a los operarios que pululaban por sus galerías hace décadas entre picos, carretas cargadas de carbón y faroles. El Gobierno del Principado aspira a un polo tecnológico propio y ha visto en instalaciones en desuso del Caudal, como el pozo Santiago , espacios ideales para acoger infraestructuras informáticas . A finales de junio responsables de la Consejería de Ciencia asturiana y del Centro Nacional de Supercomputación visitaron Mieres y Aller, en la comarca de Caudal, donde estudiaron sobre el terreno las galerías del pozo Santiago. Luego se trasladaron al Centro de Innovación de la Universidad de Oviedo, clave también en los planes de la comunidad autónoma. "El Principado plantea la puesta en marcha de un polo tecnológico vinculado al ámbito de la computación en la cuenca del Caudal —explicaba poco después el Gobierno

Hay dos marcas chinas arrasando en tablets. El mercado empieza a mostrar signos de recuperación

Tras dos años en caída libre , el mercado de las tablets empieza a mostrar signos de recuperación. Según IDC , se registró un incremento del 0,5% en los envíos globales en el primer trimestre de 2024, con un total de 30,8 millones de unidades. Es la primera vez desde 2021 en la que se muestran signos de mejoría, poniendo sobre la mesa IDC que los datos coinciden con el inicio de un ciclo de actualización. Apple sufrió bastante en 2024 en lo que respecta a crecimiento interanual. La compañía sigue siendo la que más tablets vende en el mundo gracias a la popularidad del iPad , pero el crecimiento interanual disminuyó en un 8,5%. Pese a ello, lograron enviar 9,9 millones de unidades, lo cual supone una cuota de mercado del 32%. Le sigue Samsung, con una cuota de mercado del 21,7% y una caída en el interanual del 5,8%. La compañía se ha mantenido discreta en lanzamientos durante finales de 2023 y comienzos de este año. Con estas dos grandes firmas en caída, las marcas chinas se