Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

mab@mastodon.xyz

@BertrandCaron As-tu une idée de si c'est la cause du dysfonctionnement actuel de l'accès à EuroPresse auquel l'abonnement BnF permet habituellement d'accéder ?

bertrandcaron@digipres.club

@mab alors pour le coup - non pas vraiment. Si j'ai bien compris, le nombre d'accès par mois à Europresse a été à nouveau atteint, la BnF a négocié une rallonge, qui a été ou est en passe d'être consommée. Europresse semble penser que des lecteur·ice·s pourraient utiliser ces accès pour les moissonner. Apparemment le torchon brûle entre l'institution et Europresse.

mab@mastodon.xyz

@BertrandCaron À tout juste la moitié du mois… ça craint.

J'espère qu'ils trouveront un accord. Mais effectivement, la problématique de moissonage de données n'est probablement pas simple à traiter, surtout en limitant les couts.

pulkomandy@mastodon.tetaneutral.net

@archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

bertrandcaron@digipres.club

@mab c'est clair...

C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???

Bertrand Caron (@BertrandCaron@digipres.club)

Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)

digipres.club (digipres.club)

bertrandcaron@digipres.club

@pulkomandy @archeenerd dans mon souvenir, le robot de la BnF se présente comme Heritrix (https://en.wikipedia.org/wiki/Heritrix), ce qui le rend déjà assez repérable comme provenant d'une institution de préservation.

tuxicoman@social.jesuislibre.net

@BertrandCaron

Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?

julienfalgas@piaille.fr

@BertrandCaron

Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

mab@mastodon.xyz

@BertrandCaron Alors pour ma part c'est le moment de renouvellement de mon abo BnF !

Mais ma conso EuroPresse se limite à un ou deux articles par semaine en moyenne

bertrandcaron@digipres.club

@tuxicoman la #BnF ne moissonne que le web public. Exit facebook, Linkedin et toute autre plateforme derrière authentification. Sauf cas très particuliers, à la suite de négos avec les producteurs (par ex., le robot s'authentifie sur les sites de presse quotidienne régionale pour aller chercher les PDF des fascicules, mais c'est un processus qui est mis en place après accord explicite).

pulkomandy@mastodon.tetaneutral.net

@archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.

Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains

bertrandcaron@digipres.club

@pulkomandy @archeenerd je crois que la loi sur le dépôt légal l'emporte sur les exigences de robots.txt. Après on fait de la désindexation des collections sur demande des producteurs, mais comme un site web public est considéré au même titre que toute autre production culturelle librement accessible, la BnF a le droit et le devoir de les collecter et de les préserver.

ysabeau@piaille.fr

@BertrandCaron Mais on peut imaginer des solutions que chacun dans son coin (je pense surtout aux hébergeurs et CMS) pourrait mettre en place déjà.
Après uniformisation etc., c'est une autre paire de manche (bon je ne sais pas de quoi je parle sur le plan technique, une fois de plus).

pulkomandy@mastodon.tetaneutral.net

@BertrandCaron @archeenerd oui, je pense que la BNF fait bien les choses, mais les protections de type Anubis (qui bloquent de façon assez large) sont mises en place surtout à cause de robots ne respectant pas ces règles. En principe Anubis laisse passer les robots qui se déclarent clairement dans le user agent et n'intercepte que les humains et les robots essayant de se faire passer pour des humains. Je ne sais pas ce que font les solutions concurrentes

pierstoval@mastodon.social

@BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).

Déjà à l'époque on commençait à avoir des restrictions...

Très honnêtement, je vois mal une solution "fiable" apparaître.

C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés

pierstoval@mastodon.social

@BertrandCaron @tuxicoman
On aurait pu imaginer des "plugins" pour tous les softwares open source (spip, wordpress, drupal, et tous les autres) afin que ces outils permettent "d'autoriser" la BnF.
Sauf que (et je le fais souvent moi-même) parfois la restriction est direct côté serveur, infrastructure réseau, etc., et dans un tel cas, ce n'est peut-être pas le même interlocuteur.
Reste la solution considérablement moins performante mais ""peut-être + efficace" de passer par un "vrai browser"...

pierstoval@mastodon.social

@BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.

Dans tous les cas, ça rend le travail beaucoup plus difficile

pierstoval@mastodon.social

@BertrandCaron @tuxicoman L'autre solution serait "une participation citoyenne" : idem que pour les wordpress, drupal et autres, fournir un outil qui va faire l'inverse : fournir à la BnF les données directement, et donc il serait à la charge des hébergeurs d'installer ces outils et d'activer une exécution régulière de ceux-ci pour donner les infos à la BnF. Mais encore une fois, c'est "détourner le problème".

Cela dit : mieux vaut plein de solutions pas ouf plutôt qu'une seule inefficace

claudex@pouet.chapril.org

@jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème

lutindiscret@mastodon.libre-entreprise.com

@julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)

CIRCLE WITH A DOT

Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

Bertrand Caron (@BertrandCaron@digipres.club)

Bertrand Caron (@BertrandCaron@digipres.club)