Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

bertrandcaron@digipres.club

@jcbuttier je serais curieux de le savoir. L'INA aussi doit être face aux mêmes problèmes.

ysabeau@piaille.fr

@BertrandCaron il me souvient en effet que le BnF avait contacté SPIP pour ça. Je ne sais plus si ç'avait été réglé. Je me demande s'il n'y aurait un genre de patte blanche à montrer.

bertrandcaron@digipres.club

@Ysabeau je crois que nos collègues ont l'habitude de discuter avec des gens / organisations qui maintiennent des sites web pour trouver des solutions. Sauf que là ça devient généralisé, et elles ne sont pas assez nombreuses pour engager autant de négociations.

ysabeau@piaille.fr

@BertrandCaron Du coup, je pense qu'inventer un système de patte blanche ets peut-être vraiment un bonne idée. Je ne sais du tout comment ça peut se concrétiser cela dit.

bertrandcaron@digipres.club

@Ysabeau effectivement, ça semblerait une solution possible, mais d'ici à ce que ça émerge, il va sans doute y avoir plusieurs années blanches... (je frôle l'ultra-crépidarianisme là parce que ça n'est que mon avis peu informé, mais il s'appuie juste sur une petite expérience de la normalisation et du temps INFINI que ça prend).

archeenerd@digipres.club

@BertrandCaron Effectivement, j'ai constaté ça aussi, les outils mis en place (Anubis chez nous) soulagent bien les serveurs face à la pression des robots mais les crawlers web "légitimes" sont des victimes collatérales de ces mesures. Du coup, des sites institutionnels ne peuvent de facto plus être archivés.
Les guillemets autour de légitime sont volontaires, car qu'est-ce qui distingue (hors système de patte blanche) un robot légitime d'un robot illégitime? L'agressivité de la capture?

bertrandcaron@digipres.club

@archeenerd excellente question à laquelle je laisse de plus experts que moi répondre ! Et merci du retour !

mab@mastodon.xyz

@BertrandCaron As-tu une idée de si c'est la cause du dysfonctionnement actuel de l'accès à EuroPresse auquel l'abonnement BnF permet habituellement d'accéder ?

bertrandcaron@digipres.club

@mab alors pour le coup - non pas vraiment. Si j'ai bien compris, le nombre d'accès par mois à Europresse a été à nouveau atteint, la BnF a négocié une rallonge, qui a été ou est en passe d'être consommée. Europresse semble penser que des lecteur·ice·s pourraient utiliser ces accès pour les moissonner. Apparemment le torchon brûle entre l'institution et Europresse.

mab@mastodon.xyz

@BertrandCaron À tout juste la moitié du mois… ça craint.

J'espère qu'ils trouveront un accord. Mais effectivement, la problématique de moissonage de données n'est probablement pas simple à traiter, surtout en limitant les couts.

pulkomandy@mastodon.tetaneutral.net

@archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

bertrandcaron@digipres.club

@mab c'est clair...

C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???

Bertrand Caron (@BertrandCaron@digipres.club)

Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)

digipres.club (digipres.club)

bertrandcaron@digipres.club

@pulkomandy @archeenerd dans mon souvenir, le robot de la BnF se présente comme Heritrix (https://en.wikipedia.org/wiki/Heritrix), ce qui le rend déjà assez repérable comme provenant d'une institution de préservation.

tuxicoman@social.jesuislibre.net

@BertrandCaron

Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?

julienfalgas@piaille.fr

@BertrandCaron

Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

mab@mastodon.xyz

@BertrandCaron Alors pour ma part c'est le moment de renouvellement de mon abo BnF !

Mais ma conso EuroPresse se limite à un ou deux articles par semaine en moyenne

bertrandcaron@digipres.club

@tuxicoman la #BnF ne moissonne que le web public. Exit facebook, Linkedin et toute autre plateforme derrière authentification. Sauf cas très particuliers, à la suite de négos avec les producteurs (par ex., le robot s'authentifie sur les sites de presse quotidienne régionale pour aller chercher les PDF des fascicules, mais c'est un processus qui est mis en place après accord explicite).

pulkomandy@mastodon.tetaneutral.net

@archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.

Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains

bertrandcaron@digipres.club

@pulkomandy @archeenerd je crois que la loi sur le dépôt légal l'emporte sur les exigences de robots.txt. Après on fait de la désindexation des collections sur demande des producteurs, mais comme un site web public est considéré au même titre que toute autre production culturelle librement accessible, la BnF a le droit et le devoir de les collecter et de les préserver.

ysabeau@piaille.fr

@BertrandCaron Mais on peut imaginer des solutions que chacun dans son coin (je pense surtout aux hébergeurs et CMS) pourrait mettre en place déjà.
Après uniformisation etc., c'est une autre paire de manche (bon je ne sais pas de quoi je parle sur le plan technique, une fois de plus).

CIRCLE WITH A DOT

Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

Bertrand Caron (@BertrandCaron@digipres.club)

Bertrand Caron (@BertrandCaron@digipres.club)