Skip to content
  • Categories
  • Recent
  • Tags
  • Popular
  • World
  • Users
  • Groups
Skins
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (Cyborg)
  • No Skin
Collapse
Brand Logo

CIRCLE WITH A DOT

  1. Home
  2. Uncategorized
  3. Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

Scheduled Pinned Locked Moved Uncategorized
bnf
46 Posts 20 Posters 3 Views
  • Oldest to Newest
  • Newest to Oldest
  • Most Votes
Reply
  • Reply as topic
Log in to reply
This topic has been deleted. Only users with topic management privileges can see it.
  • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

    L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

    Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

    2/2

    julienfalgas@piaille.frJ This user is from outside of this forum
    julienfalgas@piaille.frJ This user is from outside of this forum
    julienfalgas@piaille.fr
    wrote last edited by
    #18

    @BertrandCaron

    Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

    Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

    Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

    On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

    lutindiscret@mastodon.libre-entreprise.comL 1 Reply Last reply
    0
    • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

      @mab c'est clair...

      C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???

      Bertrand Caron (@BertrandCaron@digipres.club)

      Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)

      favicon

      digipres.club (digipres.club)

      mab@mastodon.xyzM This user is from outside of this forum
      mab@mastodon.xyzM This user is from outside of this forum
      mab@mastodon.xyz
      wrote last edited by
      #19

      @BertrandCaron Alors pour ma part c'est le moment de renouvellement de mon abo BnF !

      Mais ma conso EuroPresse se limite à un ou deux articles par semaine en moyenne 🙃

      1 Reply Last reply
      0
      • tuxicoman@social.jesuislibre.netT tuxicoman@social.jesuislibre.net

        @BertrandCaron

        Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?

        bertrandcaron@digipres.clubB This user is from outside of this forum
        bertrandcaron@digipres.clubB This user is from outside of this forum
        bertrandcaron@digipres.club
        wrote last edited by
        #20

        @tuxicoman la #BnF ne moissonne que le web public. Exit facebook, Linkedin et toute autre plateforme derrière authentification. Sauf cas très particuliers, à la suite de négos avec les producteurs (par ex., le robot s'authentifie sur les sites de presse quotidienne régionale pour aller chercher les PDF des fascicules, mais c'est un processus qui est mis en place après accord explicite).

        pierstoval@mastodon.socialP 1 Reply Last reply
        0
        • pulkomandy@mastodon.tetaneutral.netP pulkomandy@mastodon.tetaneutral.net

          @archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

          pulkomandy@mastodon.tetaneutral.netP This user is from outside of this forum
          pulkomandy@mastodon.tetaneutral.netP This user is from outside of this forum
          pulkomandy@mastodon.tetaneutral.net
          wrote last edited by
          #21

          @archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.

          Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains

          bertrandcaron@digipres.clubB 1 Reply Last reply
          0
          • pulkomandy@mastodon.tetaneutral.netP pulkomandy@mastodon.tetaneutral.net

            @archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.

            Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains

            bertrandcaron@digipres.clubB This user is from outside of this forum
            bertrandcaron@digipres.clubB This user is from outside of this forum
            bertrandcaron@digipres.club
            wrote last edited by
            #22

            @pulkomandy @archeenerd je crois que la loi sur le dépôt légal l'emporte sur les exigences de robots.txt. Après on fait de la désindexation des collections sur demande des producteurs, mais comme un site web public est considéré au même titre que toute autre production culturelle librement accessible, la BnF a le droit et le devoir de les collecter et de les préserver.

            1 Reply Last reply
            0
            • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

              @Ysabeau effectivement, ça semblerait une solution possible, mais d'ici à ce que ça émerge, il va sans doute y avoir plusieurs années blanches... (je frôle l'ultra-crépidarianisme là parce que ça n'est que mon avis peu informé, mais il s'appuie juste sur une petite expérience de la normalisation et du temps INFINI que ça prend).

              ysabeau@piaille.frY This user is from outside of this forum
              ysabeau@piaille.frY This user is from outside of this forum
              ysabeau@piaille.fr
              wrote last edited by
              #23

              @BertrandCaron Mais on peut imaginer des solutions que chacun dans son coin (je pense surtout aux hébergeurs et CMS) pourrait mettre en place déjà.
              Après uniformisation etc., c'est une autre paire de manche (bon je ne sais pas de quoi je parle sur le plan technique, une fois de plus).

              1 Reply Last reply
              0
              • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                @pulkomandy @archeenerd dans mon souvenir, le robot de la BnF se présente comme Heritrix (https://en.wikipedia.org/wiki/Heritrix), ce qui le rend déjà assez repérable comme provenant d'une institution de préservation.

                pulkomandy@mastodon.tetaneutral.netP This user is from outside of this forum
                pulkomandy@mastodon.tetaneutral.netP This user is from outside of this forum
                pulkomandy@mastodon.tetaneutral.net
                wrote last edited by
                #24

                @BertrandCaron @archeenerd oui, je pense que la BNF fait bien les choses, mais les protections de type Anubis (qui bloquent de façon assez large) sont mises en place surtout à cause de robots ne respectant pas ces règles. En principe Anubis laisse passer les robots qui se déclarent clairement dans le user agent et n'intercepte que les humains et les robots essayant de se faire passer pour des humains. Je ne sais pas ce que font les solutions concurrentes

                1 Reply Last reply
                0
                • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                  @tuxicoman la #BnF ne moissonne que le web public. Exit facebook, Linkedin et toute autre plateforme derrière authentification. Sauf cas très particuliers, à la suite de négos avec les producteurs (par ex., le robot s'authentifie sur les sites de presse quotidienne régionale pour aller chercher les PDF des fascicules, mais c'est un processus qui est mis en place après accord explicite).

                  pierstoval@mastodon.socialP This user is from outside of this forum
                  pierstoval@mastodon.socialP This user is from outside of this forum
                  pierstoval@mastodon.social
                  wrote last edited by
                  #25

                  @BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).

                  Déjà à l'époque on commençait à avoir des restrictions...

                  Très honnêtement, je vois mal une solution "fiable" apparaître.

                  C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés 😞

                  pierstoval@mastodon.socialP 1 Reply Last reply
                  0
                  • pierstoval@mastodon.socialP pierstoval@mastodon.social

                    @BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).

                    Déjà à l'époque on commençait à avoir des restrictions...

                    Très honnêtement, je vois mal une solution "fiable" apparaître.

                    C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés 😞

                    pierstoval@mastodon.socialP This user is from outside of this forum
                    pierstoval@mastodon.socialP This user is from outside of this forum
                    pierstoval@mastodon.social
                    wrote last edited by
                    #26

                    @BertrandCaron @tuxicoman
                    On aurait pu imaginer des "plugins" pour tous les softwares open source (spip, wordpress, drupal, et tous les autres) afin que ces outils permettent "d'autoriser" la BnF.
                    Sauf que (et je le fais souvent moi-même) parfois la restriction est direct côté serveur, infrastructure réseau, etc., et dans un tel cas, ce n'est peut-être pas le même interlocuteur.
                    Reste la solution considérablement moins performante mais ""peut-être + efficace" de passer par un "vrai browser"...

                    pierstoval@mastodon.socialP 1 Reply Last reply
                    0
                    • pierstoval@mastodon.socialP pierstoval@mastodon.social

                      @BertrandCaron @tuxicoman
                      On aurait pu imaginer des "plugins" pour tous les softwares open source (spip, wordpress, drupal, et tous les autres) afin que ces outils permettent "d'autoriser" la BnF.
                      Sauf que (et je le fais souvent moi-même) parfois la restriction est direct côté serveur, infrastructure réseau, etc., et dans un tel cas, ce n'est peut-être pas le même interlocuteur.
                      Reste la solution considérablement moins performante mais ""peut-être + efficace" de passer par un "vrai browser"...

                      pierstoval@mastodon.socialP This user is from outside of this forum
                      pierstoval@mastodon.socialP This user is from outside of this forum
                      pierstoval@mastodon.social
                      wrote last edited by
                      #27

                      @BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.

                      Dans tous les cas, ça rend le travail beaucoup plus difficile 😞

                      pierstoval@mastodon.socialP 1 Reply Last reply
                      0
                      • pierstoval@mastodon.socialP pierstoval@mastodon.social

                        @BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.

                        Dans tous les cas, ça rend le travail beaucoup plus difficile 😞

                        pierstoval@mastodon.socialP This user is from outside of this forum
                        pierstoval@mastodon.socialP This user is from outside of this forum
                        pierstoval@mastodon.social
                        wrote last edited by
                        #28

                        @BertrandCaron @tuxicoman L'autre solution serait "une participation citoyenne" : idem que pour les wordpress, drupal et autres, fournir un outil qui va faire l'inverse : fournir à la BnF les données directement, et donc il serait à la charge des hébergeurs d'installer ces outils et d'activer une exécution régulière de ceux-ci pour donner les infos à la BnF. Mais encore une fois, c'est "détourner le problème".

                        Cela dit : mieux vaut plein de solutions pas ouf plutôt qu'une seule inefficace 😞

                        1 Reply Last reply
                        0
                        • jcbuttier@social.sciences.reJ jcbuttier@social.sciences.re

                          @BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?

                          C This user is from outside of this forum
                          C This user is from outside of this forum
                          claudex@pouet.chapril.org
                          wrote last edited by
                          #29

                          @jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème

                          turbotrain@piaille.frT 1 Reply Last reply
                          0
                          • julienfalgas@piaille.frJ julienfalgas@piaille.fr

                            @BertrandCaron

                            Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

                            Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

                            Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

                            On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

                            lutindiscret@mastodon.libre-entreprise.comL This user is from outside of this forum
                            lutindiscret@mastodon.libre-entreprise.comL This user is from outside of this forum
                            lutindiscret@mastodon.libre-entreprise.com
                            wrote last edited by
                            #30

                            @julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)

                            julienfalgas@piaille.frJ 1 Reply Last reply
                            0
                            • lutindiscret@mastodon.libre-entreprise.comL lutindiscret@mastodon.libre-entreprise.com

                              @julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)

                              julienfalgas@piaille.frJ This user is from outside of this forum
                              julienfalgas@piaille.frJ This user is from outside of this forum
                              julienfalgas@piaille.fr
                              wrote last edited by
                              #31

                              @lutindiscret Je ne connaissais pas. Ma partie c'est plutôt les usages et la conception de dispositifs d'information et de communication.

                              Ce pourrait être enrichissant de réfléchir à tout ça à partir des besoins concrets de la BnF. Avoir des gens compétents en sécurité ou en crypto serait sans doute un plus.

                              Je suis certain qu'on doit pouvoir mettre en place des garde-fou ou des moyens de réagir à des injections malveillantes. Sinon, autant jeter le web : lui non plus n'est pas à l'abri de l'injection de contenus malveillants.

                              1 Reply Last reply
                              0
                              • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                                Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
                                1/2

                                poslovitch@wikis.worldP This user is from outside of this forum
                                poslovitch@wikis.worldP This user is from outside of this forum
                                poslovitch@wikis.world
                                wrote last edited by
                                #32

                                @BertrandCaron donc la BNF archive... Mon blog?

                                bertrandcaron@digipres.clubB 1 Reply Last reply
                                0
                                • poslovitch@wikis.worldP poslovitch@wikis.world

                                  @BertrandCaron donc la BNF archive... Mon blog?

                                  bertrandcaron@digipres.clubB This user is from outside of this forum
                                  bertrandcaron@digipres.clubB This user is from outside of this forum
                                  bertrandcaron@digipres.club
                                  wrote last edited by
                                  #33

                                  @Poslovitch très probablement ! S'il est en .fr, à coup sûr.

                                  poslovitch@wikis.worldP 1 Reply Last reply
                                  0
                                  • C claudex@pouet.chapril.org

                                    @jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème

                                    turbotrain@piaille.frT This user is from outside of this forum
                                    turbotrain@piaille.frT This user is from outside of this forum
                                    turbotrain@piaille.fr
                                    wrote last edited by
                                    #34

                                    @claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également

                                    mr_mick@ludosphere.frM srazkvt@tech.lgbtS 2 Replies Last reply
                                    0
                                    • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                                      Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
                                      1/2

                                      tiflosion@rivals.spaceT This user is from outside of this forum
                                      tiflosion@rivals.spaceT This user is from outside of this forum
                                      tiflosion@rivals.space
                                      wrote last edited by
                                      #35

                                      @BertrandCaron il faudrait un genre de systeme de confiance, la chose la plus simple à laquelle je pense serait un système de whitelist par ip vu qu'on suppose que des organismes tels que internet archive ont des ip fixes facilement identifiables

                                      1 Reply Last reply
                                      0
                                      • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                                        @Poslovitch très probablement ! S'il est en .fr, à coup sûr.

                                        poslovitch@wikis.worldP This user is from outside of this forum
                                        poslovitch@wikis.worldP This user is from outside of this forum
                                        poslovitch@wikis.world
                                        wrote last edited by
                                        #36

                                        @BertrandCaron il est en .fr ! Il y a moyen de savoir si un site est archivé ?

                                        leflaneur19@piaille.frL 1 Reply Last reply
                                        0
                                        • poslovitch@wikis.worldP poslovitch@wikis.world

                                          @BertrandCaron il est en .fr ! Il y a moyen de savoir si un site est archivé ?

                                          leflaneur19@piaille.frL This user is from outside of this forum
                                          leflaneur19@piaille.frL This user is from outside of this forum
                                          leflaneur19@piaille.fr
                                          wrote last edited by
                                          #37

                                          @Poslovitch @BertrandCaron
                                          Il y a un poste de consultation du DL web à la Bibliothèque Stanislas. Vous pouvez allez voir ce que donne l'archivage dans l'application conçue par la BnF.

                                          dbenoist@mastodon.partipirate.orgD 1 Reply Last reply
                                          0
                                          Reply
                                          • Reply as topic
                                          Log in to reply
                                          • Oldest to Newest
                                          • Newest to Oldest
                                          • Most Votes


                                          • Login

                                          • Login or register to search.
                                          • First post
                                            Last post
                                          0
                                          • Categories
                                          • Recent
                                          • Tags
                                          • Popular
                                          • World
                                          • Users
                                          • Groups