Ir al contenido principal

Internet Archive estaba caído. La razón resultó ser sorprendente: alguien estaba entrenando una IA

 Internet Archive estaba caído. La razón resultó ser sorprendente: alguien estaba entrenando una IA

The Internet Archive es la gran hemeroteca de la red de redes, aunque eso a veces la lleve a tener problemas. Gracias a este proyecto podemos por ejemplo hacer un viaje al pasado de la web, disfrutar de contenidos de audio y vídeo, rememorar el uso de calculadoras científicas o incluso echar unas partidas a viejos éxitos retro gracias a la emulación. Este tipo de servicio es una de las joyas de internet, pero estos días algo inaudito pasó: The Internet Archive estaba caído. ¿Qué pasó?

Error 502. El pasado domingo 28 de mayo quienes intentaron acceder al servicio se encontraron con el mensaje "Server Error 502". O lo que es lo mismo: los servidores estaban soportando demasiada carga.

Una IA glotona. Mark Graham, responsable de la "máquina del tiempo" de The Internet Archive (Wayback Machine), explicaba la razón: la culpa la había tenido la inteligencia artificial. Y más concretamente, una empresa no especificada que estaba entrenando su modelo de IA con datos de The Internet Archive.

Miles de solicitudes. Poco después uno de los responsables de la plataforma, Brewster Kahle, daba algunos detalles más sobre el suceso en el blog oficial de The Internet Archive: un conjunto de 64 máquinas virtuales hospedadas en la plataforma AWS de Amazon estaban lanzando "decenas de miles de solicitudes por segundo" para recolectar sus archivos OCR de dominio público.

Solución: bloquear IPs."Incluso para los estándares web, decenas de miles de solicitudes por segundo es mucho", explicaba Kahle, que indicaba que eso había provocado una caída del servicio de aproximadamente una hora. Los ingenieros lograron atajar el problema con una medida tajante: bloquearon el acceso a las IPs de las que procedían esas peticiones.

Segundo intento. La cosa no terminó ahí, y tras atajar aquellas peticiones apareció una segunda ronda de 64 direcciones IP que volvía a poner en problemas el servicio. De nuevo hubo otra hora en la que el servicio de The Internet Archive estuvo inaccesible, y de nuevo tuvieron que bloquear esas IPs.

Mejor pedir permiso. El problema de la caída se debió a la dimensión de las peticiones. Kahle explicaba que "aquellos que quieran usar nuestros materiales en masa deberían empezar poco a poco e ir aumentando el ritmo". Además, indicaba, "si vas a crear un gran proyecto por favor contacta con nosotros en info@archive.org, estamos aquí para ayudar". La idea aquí era clara: usar The Internet Archive es perfecto, pero "no nos provoques una caída en el proceso".

Modelos hambrientos. El problema al que se ha enfrentado The Internet Archive podría repetirse en el futuro para otras plataformas: los grandes modelos de IA como ChatGPT se entrenan con grandes cantidades de datos: la Wikipedia o los repositorios de código de GitHub son un buen ejemplo, pero esas peticiones, hechas de forma masiva, pueden hacer que para el resto de los usuarios el servicio se vea perjudicado o incluso quede inaccesible. Conviene por lo tanto que este tipo de empresas contacten con esas plataformas para evitar este tipo de problemas.

Imagen: Jason Scott

En Xataka | Alguien debe clasificar los datos que usamos para entrenar una IA, pero muchos sólo ganan 2,50 dólares/hora por ello

-
La noticia Internet Archive estaba caído. La razón resultó ser sorprendente: alguien estaba entrenando una IA fue publicada originalmente en Xataka por Javier Pastor .



from Xataka https://ift.tt/euDVPOx
via IFTTT

Comentarios

Entradas populares de este blog

Asturias tiene un plan para recuperar viejas minas en desuso: que acojan instalaciones informáticas

Asturias quiere dar nueva vida a viejas minas abandonados. Y quiere hacerlo además cambiando totalmente de tercio, con un enfoque que sonaría a ciencia ficción a los operarios que pululaban por sus galerías hace décadas entre picos, carretas cargadas de carbón y faroles. El Gobierno del Principado aspira a un polo tecnológico propio y ha visto en instalaciones en desuso del Caudal, como el pozo Santiago , espacios ideales para acoger infraestructuras informáticas . A finales de junio responsables de la Consejería de Ciencia asturiana y del Centro Nacional de Supercomputación visitaron Mieres y Aller, en la comarca de Caudal, donde estudiaron sobre el terreno las galerías del pozo Santiago. Luego se trasladaron al Centro de Innovación de la Universidad de Oviedo, clave también en los planes de la comunidad autónoma. "El Principado plantea la puesta en marcha de un polo tecnológico vinculado al ámbito de la computación en la cuenca del Caudal —explicaba poco después el Gobierno

Cómo y dónde ver online todo el fútbol 2017-18: comparativa de precios y canales

¿Ya está aquí el fútbol? Sí, ya está aquí el fútbol . El 18 de agosto comienza oficialmente en España LaLiga Santander (o la Liga de Primera División) y la Liga 1|2|3 (Segunda División). A ambas competiciones hay que sumar otras ligas europeas, que también han comenzado ya estos días, y a otras competiciones, que harán lo propio durante las próximas semanas. A continuación recopilamos cómo se distribuyen los derechos de emisión de las principales competiciones de esta temporada, así como las distintas formas de ver el fútbol online desde España . Y ya os damos una pista: por desgracia, no hay demasiadas alternativas... y cada vez son menos. Resumen de canales y derechos para la temporada 2017-2018 Canales de pago: Entre el vaivén de derechos de emisión, exclusividades y distintos canales, el ver al inicio de cada temporada quién emitirá cada competición puede complicarse en exceso. Por eso hemos simplificado al máximo para hacer un resumen de los principales canales y qué ofrecer

Guía de seguridad para tus compras online: cómo evitar estafas, virus y falsas ofertas

Hoy te traemos una guía de seguridad para tus compras online . Porque periodos de rebajas como el Black Friday de cada año y similares son perfectos para dejarte devorar por la fiebre de las ofertas y adelantar tus compras navideñas. Sin embargo, también puede ser la excusa utilizada por cibercriminales para comprometer tu seguridad, estafadores para hacerte comprar productos falsos, e incluso comercios legítimos para hacerte creer que un precio está en oferta cuando no lo está. Vamos a empezar el artículo con una serie de consejos con los que intentaremos enseñarte a evitar que te estafen con páginas u ofertas fraudulentas , algo que pueden intentar hacer por varios métodos como el phishing. Luego, pasaremos a darte un par de consejos para evitar instalar malware en tu ordenador a través de ofertas falsas, y terminaremos con herramientas para ayudarte a distinguir las ofertas que realmente son buenas de las demás. Evita que te estafen con páginas fraudulentas Vamos