Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

ysabeau@piaille.fr

@BertrandCaron Mais on peut imaginer des solutions que chacun dans son coin (je pense surtout aux hébergeurs et CMS) pourrait mettre en place déjà.
Après uniformisation etc., c'est une autre paire de manche (bon je ne sais pas de quoi je parle sur le plan technique, une fois de plus).

pulkomandy@mastodon.tetaneutral.net

@BertrandCaron @archeenerd oui, je pense que la BNF fait bien les choses, mais les protections de type Anubis (qui bloquent de façon assez large) sont mises en place surtout à cause de robots ne respectant pas ces règles. En principe Anubis laisse passer les robots qui se déclarent clairement dans le user agent et n'intercepte que les humains et les robots essayant de se faire passer pour des humains. Je ne sais pas ce que font les solutions concurrentes

pierstoval@mastodon.social

@BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).

Déjà à l'époque on commençait à avoir des restrictions...

Très honnêtement, je vois mal une solution "fiable" apparaître.

C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés

pierstoval@mastodon.social

@BertrandCaron @tuxicoman
On aurait pu imaginer des "plugins" pour tous les softwares open source (spip, wordpress, drupal, et tous les autres) afin que ces outils permettent "d'autoriser" la BnF.
Sauf que (et je le fais souvent moi-même) parfois la restriction est direct côté serveur, infrastructure réseau, etc., et dans un tel cas, ce n'est peut-être pas le même interlocuteur.
Reste la solution considérablement moins performante mais ""peut-être + efficace" de passer par un "vrai browser"...

pierstoval@mastodon.social

@BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.

Dans tous les cas, ça rend le travail beaucoup plus difficile

pierstoval@mastodon.social

@BertrandCaron @tuxicoman L'autre solution serait "une participation citoyenne" : idem que pour les wordpress, drupal et autres, fournir un outil qui va faire l'inverse : fournir à la BnF les données directement, et donc il serait à la charge des hébergeurs d'installer ces outils et d'activer une exécution régulière de ceux-ci pour donner les infos à la BnF. Mais encore une fois, c'est "détourner le problème".

Cela dit : mieux vaut plein de solutions pas ouf plutôt qu'une seule inefficace

claudex@pouet.chapril.org

@jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème

lutindiscret@mastodon.libre-entreprise.com

@julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)

julienfalgas@piaille.fr

@lutindiscret Je ne connaissais pas. Ma partie c'est plutôt les usages et la conception de dispositifs d'information et de communication.

Ce pourrait être enrichissant de réfléchir à tout ça à partir des besoins concrets de la BnF. Avoir des gens compétents en sécurité ou en crypto serait sans doute un plus.

Je suis certain qu'on doit pouvoir mettre en place des garde-fou ou des moyens de réagir à des injections malveillantes. Sinon, autant jeter le web : lui non plus n'est pas à l'abri de l'injection de contenus malveillants.

poslovitch@wikis.world

@BertrandCaron donc la BNF archive... Mon blog?

bertrandcaron@digipres.club

@Poslovitch très probablement ! S'il est en .fr, à coup sûr.

turbotrain@piaille.fr

@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également

tiflosion@rivals.space

@BertrandCaron il faudrait un genre de systeme de confiance, la chose la plus simple à laquelle je pense serait un système de whitelist par ip vu qu'on suppose que des organismes tels que internet archive ont des ip fixes facilement identifiables

poslovitch@wikis.world

@BertrandCaron il est en .fr ! Il y a moyen de savoir si un site est archivé ?

leflaneur19@piaille.fr

@Poslovitch @BertrandCaron
Il y a un poste de consultation du DL web à la Bibliothèque Stanislas. Vous pouvez allez voir ce que donne l'archivage dans l'application conçue par la BnF.

dbenoist@mastodon.partipirate.org

@leflaneur19 @Poslovitch @BertrandCaron Sur le site BnF, il y a aussi la liste des sites aspirés, mais pour les consulter il faut effectivement venir sur place ou dans une bibliothèque partenaire en province

monolecte@framapiaf.org

@BertrandCaron

Si le robot agent de la bnf est clairement identifiable, on devrait pouvoir le laisser passer !

mr_mick@ludosphere.fr

@TurboTrain @claudex @jcbuttier @BertrandCaron

Et tu contribues au problème de la préservation

nojhan@social.antigene.org

@jcbuttier @BertrandCaron Oui, ils ont communiqué dessus récemment.

turbotrain@piaille.fr

@Mr_Mick @claudex @jcbuttier @BertrandCaron entre ça et aider les boites d'IA, le choix est vite fait

CIRCLE WITH A DOT

Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).