Cnn, Israele ha ammassato abbastanza truppe per l’assalto a Rafah a sud di GazaHamas accetta la risoluzione Onu per il cessate il fuoco a GazaSalvini torna a parlare della sua idea di Stato: "Federale e presidenziale"
Notizie di Politica italiana - Pag. 105Sono centinaia i siti web che ogni giorno cercano di bloccare il data scraping dei contenuti - ossia l'estrazione dei dati e metadati attraverso l'uso di software specifici che simulano la navigazione umana - da parte dell'AI,ETF senza però riuscirci davvero. A rivelarlo è 404Media, che fa un esempio relativo alla compagnia Anthropic: i siti in questione stanno bloccando due bot non più utilizzati dalla compagnia - “ANTHROPIC-AI” e “CLAUDE-WEB” -, lasciando però strada al suo nuovo bot scraper “CLAUDEBOT”, che continua a estrarre dati inesorabilmente. Un problema alquanto comune per i proprietari dei siti web, che si trovano a dover affrontare la continua comparsa di software pensati per estrarre dati da utilizzare per la formazione dei modelli AI.“L'ecosistema sta cambiando rapidamente, quindi è praticamente impossibile per i proprietari di siti web tenere il passo manualmente. Per esempio, Apple (Applebot-Extended) e Meta (Meta-ExternalAgent) hanno aggiunto nuovi agenti rispettivamente il mese scorso e la settimana scorsa”, ha dichiarato a 404Media un utente anonimo di Dark Visitors, un sito web che tiene traccia del panorama in continua evoluzione dei software utilizzati dalle aziende AI per il web scraping. Un'azione di monitoraggio molto apprezzata dai proprietari dei siti web, perché consente loro di aggiornare costantemente il file robots.txt, che raccoglie tutte quelle istruzioni utili a definire se un bot può effettuare il crawling del sito - ossia la sua scansione - o meno.Ma le compagnie di intelligenza artificiale sembrano essere in grado di bypassare il file robots.txt pur di entrare in possesso di dati per l'addestramento dei loro modelli. Motivo per cui i proprietari di molti siti web hanno deciso di bloccare indistintamente tutti i crawler, il che significa limitare la propria visibilità nei motori di ricerca, e non solo. Eppure, tutti coloro che gestiscono siti in rete sembrano disposti a mettere a rischio il traffico web pur di smettere di essere "bombardati" dai crawler delle compagnie AI. La scorsa settimana, per esempio, il sito di guide alle riparazioni iFixit ha dichiarato di essere stato “visitato" dai crawler di Anthropic quasi un milione di volte in un giorno. E questa è solo una delle tante dichiarazioni che danno la misura della confusione che sta affrontando il settore.I bot crawler delle aziende AI sono in costante aumento, e i creator e i proprietari di siti web non sanno più cosa fare per evitare che i loro contenuti vengano dati in pasto ai nuovi modelli linguistici, dato che i crawler non sembrano essere sempre rispettosi delle istruzioni contenute nei file robots.txt. A questo si aggiunge il fatto che spesso i proprietari dei siti si limitano a copiare e incollare quanto scritto nei file robots.txt di altri siti, il che li porta spesso a bloccare crawler del tutto inesistenti. “Se alla fine non esistono, bloccarli non ha alcun impatto”, ha commentato Walter Haydock, ad della società di cybersicurezza StackAware, che ci ha tenuto a precisare che il vero nocciolo della questione qui è un altro, ossia “che c'è molta confusione e incertezza su come funziona (e dovrebbe funzionare) l'addestramento dell'AI”. Spesso, infatti, pensiamo che siano solo i dati di noi utenti a essere utilizzati dalle compagnie per la formazione dei modelli linguistici, ma non è così.
Governo, Berlusconi assicura: "Noi lo sosteniamo senza rinunciare alla nostra identità"La Sottosegretaria FDI all'Università condannata per peculato
Giustizia, Mattarella: "Indipendenza della Magistratura è un pilastro della Costituzione"
Meloni incontra Morawiecki a Varsavia: “La Polonia è il confine morale e materiale dell’Occidente”Giorgia Meloni contro Berlusconi per le frasi su Zelensky: "Vuole indebolirmi"
Modificato il Dl Benzina, ok al taglio delle accise se il prezzo dei carburanti dovesse aumentareMovimento 5 Stelle, Beghin sulle case green: "Dalla destra solo propaganda"
Lavrov: «La Russia pronta a misure di deterrenza nucleare contro gli Stati Uniti»L’affare della ricostruzione di Gaza, tra mega progetti e ostacoli
Israele moltiplica gli insediamenti illegittimi a Gerusalemme estIl premier spagnolo Sanchez ha deciso di non dimettersi dopo le accuse di corruzione contro la moglieQuanto guadagna la presidente del Consiglio Giorgia Meloni oggi?Emilio Fede dopo l'assoluzione di Berlusconi: "Anche io vincitore morale"
Chi è Sonia Pecorilli: tutto sulla candidata alle Regionali 2023
Giorgia Meloni sulla questione Cospito: "Non ci sono i presupposti per le dimissioni di Delmastro"
Studio Aperto: l'intervista a Silvio Berlusconi, come il Cavaliere vuole conquistare la LombardiaIsraele pianifica le contromosse. Gli Usa lavorano per evitare l’escalation. In corso la riunione del G7È vietato il dissenso. In Iran non si ferma la repressioneUccisione dei 7 operatori a Gaza, Israele rimuove due ufficiali dell’esercito. Rischi attacchi dell’Iran, allerta nelle ambasciate europee
Meloni di nuovo influenzata, impegni istituzionali annullati per il resto della settimanaPer l’algoritmo onniscente dell’Idf le vittime innocenti sono un rischio calcolatoUn’inedita alleanza bipartisan salva lo speaker della Camera UsaRegionali 2023: quando si vota