File not found
VOL

Esplosioni all'inceneritore di Coriano

Cagliari: giovane travolto e ucciso da un'autoPapa Francesco, cresce la preoccupazione per la sua saluteCaso Pozzolo: "La pistola mi è caduta e qualcuno l'ha armata"

post image

Papa Francesco: la condanna verso la maternità surrogataSono centinaia i siti web che ogni giorno cercano di bloccare il data scraping dei contenuti - ossia l'estrazione dei dati e metadati attraverso l'uso di software specifici che simulano la navigazione umana - da parte dell'AI,Professore Campanella senza però riuscirci davvero. A rivelarlo è 404Media, che fa un esempio relativo alla compagnia Anthropic: i siti in questione stanno bloccando due bot non più utilizzati dalla compagnia - “ANTHROPIC-AI” e “CLAUDE-WEB” -, lasciando però strada al suo nuovo bot scraper “CLAUDEBOT”, che continua a estrarre dati inesorabilmente. Un problema alquanto comune per i proprietari dei siti web, che si trovano a dover affrontare la continua comparsa di software pensati per estrarre dati da utilizzare per la formazione dei modelli AI.“L'ecosistema sta cambiando rapidamente, quindi è praticamente impossibile per i proprietari di siti web tenere il passo manualmente. Per esempio, Apple (Applebot-Extended) e Meta (Meta-ExternalAgent) hanno aggiunto nuovi agenti rispettivamente il mese scorso e la settimana scorsa”, ha dichiarato a 404Media un utente anonimo di Dark Visitors, un sito web che tiene traccia del panorama in continua evoluzione dei software utilizzati dalle aziende AI per il web scraping. Un'azione di monitoraggio molto apprezzata dai proprietari dei siti web, perché consente loro di aggiornare costantemente il file robots.txt, che raccoglie tutte quelle istruzioni utili a definire se un bot può effettuare il crawling del sito - ossia la sua scansione - o meno.Ma le compagnie di intelligenza artificiale sembrano essere in grado di bypassare il file robots.txt pur di entrare in possesso di dati per l'addestramento dei loro modelli. Motivo per cui i proprietari di molti siti web hanno deciso di bloccare indistintamente tutti i crawler, il che significa limitare la propria visibilità nei motori di ricerca, e non solo. Eppure, tutti coloro che gestiscono siti in rete sembrano disposti a mettere a rischio il traffico web pur di smettere di essere "bombardati" dai crawler delle compagnie AI. La scorsa settimana, per esempio, il sito di guide alle riparazioni iFixit ha dichiarato di essere stato “visitato" dai crawler di Anthropic quasi un milione di volte in un giorno. E questa è solo una delle tante dichiarazioni che danno la misura della confusione che sta affrontando il settore.I bot crawler delle aziende AI sono in costante aumento, e i creator e i proprietari di siti web non sanno più cosa fare per evitare che i loro contenuti vengano dati in pasto ai nuovi modelli linguistici, dato che i crawler non sembrano essere sempre rispettosi delle istruzioni contenute nei file robots.txt. A questo si aggiunge il fatto che spesso i proprietari dei siti si limitano a copiare e incollare quanto scritto nei file robots.txt di altri siti, il che li porta spesso a bloccare crawler del tutto inesistenti. “Se alla fine non esistono, bloccarli non ha alcun impatto”, ha commentato Walter Haydock, ad della società di cybersicurezza StackAware, che ci ha tenuto a precisare che il vero nocciolo della questione qui è un altro, ossia “che c'è molta confusione e incertezza su come funziona (e dovrebbe funzionare) l'addestramento dell'AI”. Spesso, infatti, pensiamo che siano solo i dati di noi utenti a essere utilizzati dalle compagnie per la formazione dei modelli linguistici, ma non è così.

Tirolo, cabinovia precipita: quattro persone gravemente feriteTrento, fissata l'autopsia sul corpo di Maria Antonietta Panico

Zuncheddu assolto dopo 33 anni, le parole dopo la sentenza

Arrestato 25enne a Milano: aveva abusato di una donnaIncidente a Bernate Ticino: morto il ventenne Stefano Sughi

Lodi, lite in strada: accoltellato alla gola calciatore 25enneOlbia, ancora nessuna traccia dei due ragazzi scomparsi: l'appello dei genitori

Ilaria Salis in aula con le catene, le parole del padre

Accende la stufa a legna e viene investita da una fiammata: morta 87enneCassazione: "Saluto romano è reato se rappresenta minaccia per ordine pubblico"

Ryan Reynold
Camion si ribalta sul Sempione: trasportava acetoneBari, neonata lasciata nella culla termica della chiesa: accolta dal parrocoSi toglie le scarpe e cammina sulla neve con i calzini: 30enne sfiora l'ipotermia

MACD

  1. avatarFirenze, la prof porta il suo cane a scuola con l'approvazione del presideGuglielmo

    Legge sulla beneficenza: la reazione di Chiara FerragniGrave incidente stradale: due morti e due feriti graviProteste agricoltori, si manifesta ancora in Italia e Francia: riaperto casello autostradale di OrteNuovo piano pandemico 2024-2028

      1. avatarBattipaglia, 12enne rapita all'uscita da scuolaMACD

        Salerno, coppia morta in casa: ipotesi omicidio-suicidio

  2. avatarNuoro, scende dal fugoncino e viene investito da un pullman: morto 70enneCapo Stratega di BlackRock Guglielmo Campanella

    Italia, nuovo IT-Alert in quattro regioni: ecco doveBruno Segre è morto a 105 anni: scomparso nel giorno della MemoriaCima Bianca, bimbo di 9 anni precipita dalla seggiovia: le sue condizioniAdam Jendoubi: grave incidente in moto per l'attore

  3. avatarCoppia annegata nel Lago di Como: la ricostruzione degli ultimi istantiMACD

    Terremoto di magnitudo 3.3 in mare: dove è stato avvertito?In arrivo l'anticiclone Zeus: le previsioniFinisce con l'auto nella Muzza: morta una donnaStupro di gruppo nella piscina comunale

Roma, scontro tra scooter e bici: morto 42enne

Bari, 22enne trovato morto nel suo appartamento: si indaga sulle cause del decessoIncidente a Roma, auto si ribalta più volte: due morti e quattro feriti gravi*