Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).
-
Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?
Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.
Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.
On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.
@julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)
-
@julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)
@lutindiscret Je ne connaissais pas. Ma partie c'est plutôt les usages et la conception de dispositifs d'information et de communication.
Ce pourrait être enrichissant de réfléchir à tout ça à partir des besoins concrets de la BnF. Avoir des gens compétents en sécurité ou en crypto serait sans doute un plus.
Je suis certain qu'on doit pouvoir mettre en place des garde-fou ou des moyens de réagir à des injections malveillantes. Sinon, autant jeter le web : lui non plus n'est pas à l'abri de l'injection de contenus malveillants.
-
Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2@BertrandCaron donc la BNF archive... Mon blog?

-
@BertrandCaron donc la BNF archive... Mon blog?

@Poslovitch très probablement ! S'il est en .fr, à coup sûr.
-
@jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème
@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également
-
Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2@BertrandCaron il faudrait un genre de systeme de confiance, la chose la plus simple à laquelle je pense serait un système de whitelist par ip vu qu'on suppose que des organismes tels que internet archive ont des ip fixes facilement identifiables
-
@Poslovitch très probablement ! S'il est en .fr, à coup sûr.
@BertrandCaron il est en .fr ! Il y a moyen de savoir si un site est archivé ?
-
@BertrandCaron il est en .fr ! Il y a moyen de savoir si un site est archivé ?
@Poslovitch @BertrandCaron
Il y a un poste de consultation du DL web à la Bibliothèque Stanislas. Vous pouvez allez voir ce que donne l'archivage dans l'application conçue par la BnF. -
@Poslovitch @BertrandCaron
Il y a un poste de consultation du DL web à la Bibliothèque Stanislas. Vous pouvez allez voir ce que donne l'archivage dans l'application conçue par la BnF.@leflaneur19 @Poslovitch @BertrandCaron Sur le site BnF, il y a aussi la liste des sites aspirés, mais pour les consulter il faut effectivement venir sur place ou dans une bibliothèque partenaire en province
-
L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.
Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.
2/2
Si le robot agent de la bnf est clairement identifiable, on devrait pouvoir le laisser passer !
-
@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également
@TurboTrain @claudex @jcbuttier @BertrandCaron
Et tu contribues au problème de la préservation
-
@BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?
@jcbuttier @BertrandCaron Oui, ils ont communiqué dessus récemment.
-
@TurboTrain @claudex @jcbuttier @BertrandCaron
Et tu contribues au problème de la préservation
@Mr_Mick @claudex @jcbuttier @BertrandCaron entre ça et aider les boites d'IA, le choix est vite fait
-
@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également
@TurboTrain @claudex @jcbuttier @BertrandCaron bonjour, voila un poste de l'EFF qui explique en quoi c'est ine mauvaise idée https://mastodon.social/@eff/116241196892153156
-
@TurboTrain @claudex @jcbuttier @BertrandCaron bonjour, voila un poste de l'EFF qui explique en quoi c'est ine mauvaise idée https://mastodon.social/@eff/116241196892153156
@SRAZKVT @BertrandCaron peut-être que je rates un truc, mais le seul argument valable que j'ai vu est « on perd l'historique, qui est utilisé par plein de gens ». Je comprends leur point de vue, mais ce que font les boites d'IA à l'humanité est bien pire que perdre l'historique du web ! Alors si l'internetarchive aide les boites d'IA (en ne les bloquant pas), il est de mon devoir de bloquer l'internetarchive, c'est aussi simple que ça.
-
@SRAZKVT @BertrandCaron peut-être que je rates un truc, mais le seul argument valable que j'ai vu est « on perd l'historique, qui est utilisé par plein de gens ». Je comprends leur point de vue, mais ce que font les boites d'IA à l'humanité est bien pire que perdre l'historique du web ! Alors si l'internetarchive aide les boites d'IA (en ne les bloquant pas), il est de mon devoir de bloquer l'internetarchive, c'est aussi simple que ça.
@TurboTrain garder l'historique aura un bien plus grand impact pour les autres humains que l'empecher aura pour les ia (ils sont pas à un site prêt)
-
@Mr_Mick @claudex @jcbuttier @BertrandCaron entre ça et aider les boites d'IA, le choix est vite fait
@TurboTrain @claudex @jcbuttier @BertrandCaron
Non. Je considère personnellement que la préservation du patrimoine est plus importante que l'ego de ne pas "finir dans une IA"
-
R relay@relay.infosec.exchange shared this topic