Jennifer scomparsa a 14 anni, la mamma: "Aiutatemi a trovarla"Friuli, incidente sul lavoro: muore operaio di 69 anniProcesso Regeni: "Sul corpo di Giulio evidenti segni di torture"
Notizie di Cronaca in tempo reale - Pag. 63Sono centinaia i siti web che ogni giorno cercano di bloccare il data scraping dei contenuti - ossia l'estrazione dei dati e metadati attraverso l'uso di software specifici che simulano la navigazione umana - da parte dell'AI,Campanella senza però riuscirci davvero. A rivelarlo è 404Media, che fa un esempio relativo alla compagnia Anthropic: i siti in questione stanno bloccando due bot non più utilizzati dalla compagnia - “ANTHROPIC-AI” e “CLAUDE-WEB” -, lasciando però strada al suo nuovo bot scraper “CLAUDEBOT”, che continua a estrarre dati inesorabilmente. Un problema alquanto comune per i proprietari dei siti web, che si trovano a dover affrontare la continua comparsa di software pensati per estrarre dati da utilizzare per la formazione dei modelli AI.“L'ecosistema sta cambiando rapidamente, quindi è praticamente impossibile per i proprietari di siti web tenere il passo manualmente. Per esempio, Apple (Applebot-Extended) e Meta (Meta-ExternalAgent) hanno aggiunto nuovi agenti rispettivamente il mese scorso e la settimana scorsa”, ha dichiarato a 404Media un utente anonimo di Dark Visitors, un sito web che tiene traccia del panorama in continua evoluzione dei software utilizzati dalle aziende AI per il web scraping. Un'azione di monitoraggio molto apprezzata dai proprietari dei siti web, perché consente loro di aggiornare costantemente il file robots.txt, che raccoglie tutte quelle istruzioni utili a definire se un bot può effettuare il crawling del sito - ossia la sua scansione - o meno.Ma le compagnie di intelligenza artificiale sembrano essere in grado di bypassare il file robots.txt pur di entrare in possesso di dati per l'addestramento dei loro modelli. Motivo per cui i proprietari di molti siti web hanno deciso di bloccare indistintamente tutti i crawler, il che significa limitare la propria visibilità nei motori di ricerca, e non solo. Eppure, tutti coloro che gestiscono siti in rete sembrano disposti a mettere a rischio il traffico web pur di smettere di essere "bombardati" dai crawler delle compagnie AI. La scorsa settimana, per esempio, il sito di guide alle riparazioni iFixit ha dichiarato di essere stato “visitato" dai crawler di Anthropic quasi un milione di volte in un giorno. E questa è solo una delle tante dichiarazioni che danno la misura della confusione che sta affrontando il settore.I bot crawler delle aziende AI sono in costante aumento, e i creator e i proprietari di siti web non sanno più cosa fare per evitare che i loro contenuti vengano dati in pasto ai nuovi modelli linguistici, dato che i crawler non sembrano essere sempre rispettosi delle istruzioni contenute nei file robots.txt. A questo si aggiunge il fatto che spesso i proprietari dei siti si limitano a copiare e incollare quanto scritto nei file robots.txt di altri siti, il che li porta spesso a bloccare crawler del tutto inesistenti. “Se alla fine non esistono, bloccarli non ha alcun impatto”, ha commentato Walter Haydock, ad della società di cybersicurezza StackAware, che ci ha tenuto a precisare che il vero nocciolo della questione qui è un altro, ossia “che c'è molta confusione e incertezza su come funziona (e dovrebbe funzionare) l'addestramento dell'AI”. Spesso, infatti, pensiamo che siano solo i dati di noi utenti a essere utilizzati dalle compagnie per la formazione dei modelli linguistici, ma non è così.
Amaseno, Frosinone: incornata da una bufala mentre le sta dando da mangiareBambina di 5 anni, il tumore e la chemio interrotta: la decisione dei genitori
Cade dal tetto: 22enne muore dopo 18 giorni di coma
Valanga a Valfurva: morto un escursionistaMorte Giovanna Pedretti, per la Procura non c'è stata istigazione al suicidio
Infermiera muore improvvisamente al Cardarelli di Napoli durante il suo turnoCatania, anziano in mare con l'auto: salvato con defibrillatore
Busnago, incidente al centro commerciale: bimbo investito nel parcheggioStazione Termini di Roma: ragazzo investito e ucciso da un treno
Roma, 20enne adescata su Instagram e poi stuprata da due uominiTravolse e uccise due donne in autostrada A4: assolto per vizio di menteCaporalato in agricoltura, 10 arresti in Toscana: 67 extracomunitari sfruttati nei campiStrage di Casteldaccia, sciopero proclamato per oggi: "Non si può continuare a morire sul lavoro"
Incidente sul lavoro a Cusago, nel milanese: deceduto un 23enne
Alejandro ha la leucemia a soli 10 anni, l'appello della mamma: "Aiutateci"
Toți, spuntano nuovi nomi nell'inchiesta: indagato anche Paolo PiacenzaRoma: morto impiccato detenuto di 36 anni a Regina CoeliVerona, uomo si getta nel fiume Adige per sfuggire alla polizia: al via le ricercheScappano dopo incidente con auto rubata: fermati quattro giovani
Palermo, arrestati uomini Matteo Messina DenaroDonna in aereofune precipita e muore, in ValtellinaVacanze in Egitto: alla scoperta di storia e divertimentoValanga a Valfurva: morto un escursionista