Skip to content
  • Categories
  • Recent
  • Tags
  • Popular
  • World
  • Users
  • Groups
Skins
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (Cyborg)
  • No Skin
Collapse
Brand Logo

CIRCLE WITH A DOT

  1. Home
  2. Uncategorized
  3. Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà).

Scheduled Pinned Locked Moved Uncategorized
bnf
46 Posts 20 Posters 3 Views
  • Oldest to Newest
  • Newest to Oldest
  • Most Votes
Reply
  • Reply as topic
Log in to reply
This topic has been deleted. Only users with topic management privileges can see it.
  • bertrandcaron@digipres.clubB This user is from outside of this forum
    bertrandcaron@digipres.clubB This user is from outside of this forum
    bertrandcaron@digipres.club
    wrote last edited by
    #1

    Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
    1/2

    bertrandcaron@digipres.clubB archeenerd@digipres.clubA mab@mastodon.xyzM poslovitch@wikis.worldP tiflosion@rivals.spaceT 5 Replies Last reply
    1
    0
    • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

      Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
      1/2

      bertrandcaron@digipres.clubB This user is from outside of this forum
      bertrandcaron@digipres.clubB This user is from outside of this forum
      bertrandcaron@digipres.club
      wrote last edited by
      #2

      L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

      Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

      2/2

      jcbuttier@social.sciences.reJ ysabeau@piaille.frY tuxicoman@social.jesuislibre.netT julienfalgas@piaille.frJ monolecte@framapiaf.orgM 5 Replies Last reply
      0
      • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

        L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

        Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

        2/2

        jcbuttier@social.sciences.reJ This user is from outside of this forum
        jcbuttier@social.sciences.reJ This user is from outside of this forum
        jcbuttier@social.sciences.re
        wrote last edited by
        #3

        @BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?

        bertrandcaron@digipres.clubB C nojhan@social.antigene.orgN 3 Replies Last reply
        0
        • jcbuttier@social.sciences.reJ jcbuttier@social.sciences.re

          @BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?

          bertrandcaron@digipres.clubB This user is from outside of this forum
          bertrandcaron@digipres.clubB This user is from outside of this forum
          bertrandcaron@digipres.club
          wrote last edited by
          #4

          @jcbuttier je serais curieux de le savoir. L'INA aussi doit être face aux mêmes problèmes.

          1 Reply Last reply
          0
          • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

            L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

            Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

            2/2

            ysabeau@piaille.frY This user is from outside of this forum
            ysabeau@piaille.frY This user is from outside of this forum
            ysabeau@piaille.fr
            wrote last edited by
            #5

            @BertrandCaron il me souvient en effet que le BnF avait contacté SPIP pour ça. Je ne sais plus si ç'avait été réglé. Je me demande s'il n'y aurait un genre de patte blanche à montrer.

            bertrandcaron@digipres.clubB 1 Reply Last reply
            0
            • ysabeau@piaille.frY ysabeau@piaille.fr

              @BertrandCaron il me souvient en effet que le BnF avait contacté SPIP pour ça. Je ne sais plus si ç'avait été réglé. Je me demande s'il n'y aurait un genre de patte blanche à montrer.

              bertrandcaron@digipres.clubB This user is from outside of this forum
              bertrandcaron@digipres.clubB This user is from outside of this forum
              bertrandcaron@digipres.club
              wrote last edited by
              #6

              @Ysabeau je crois que nos collègues ont l'habitude de discuter avec des gens / organisations qui maintiennent des sites web pour trouver des solutions. Sauf que là ça devient généralisé, et elles ne sont pas assez nombreuses pour engager autant de négociations.

              ysabeau@piaille.frY 1 Reply Last reply
              0
              • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                @Ysabeau je crois que nos collègues ont l'habitude de discuter avec des gens / organisations qui maintiennent des sites web pour trouver des solutions. Sauf que là ça devient généralisé, et elles ne sont pas assez nombreuses pour engager autant de négociations.

                ysabeau@piaille.frY This user is from outside of this forum
                ysabeau@piaille.frY This user is from outside of this forum
                ysabeau@piaille.fr
                wrote last edited by
                #7

                @BertrandCaron Du coup, je pense qu'inventer un système de patte blanche ets peut-être vraiment un bonne idée. Je ne sais du tout comment ça peut se concrétiser cela dit.

                bertrandcaron@digipres.clubB 1 Reply Last reply
                0
                • ysabeau@piaille.frY ysabeau@piaille.fr

                  @BertrandCaron Du coup, je pense qu'inventer un système de patte blanche ets peut-être vraiment un bonne idée. Je ne sais du tout comment ça peut se concrétiser cela dit.

                  bertrandcaron@digipres.clubB This user is from outside of this forum
                  bertrandcaron@digipres.clubB This user is from outside of this forum
                  bertrandcaron@digipres.club
                  wrote last edited by
                  #8

                  @Ysabeau effectivement, ça semblerait une solution possible, mais d'ici à ce que ça émerge, il va sans doute y avoir plusieurs années blanches... (je frôle l'ultra-crépidarianisme là parce que ça n'est que mon avis peu informé, mais il s'appuie juste sur une petite expérience de la normalisation et du temps INFINI que ça prend).

                  ysabeau@piaille.frY 1 Reply Last reply
                  0
                  • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                    Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
                    1/2

                    archeenerd@digipres.clubA This user is from outside of this forum
                    archeenerd@digipres.clubA This user is from outside of this forum
                    archeenerd@digipres.club
                    wrote last edited by
                    #9

                    @BertrandCaron Effectivement, j'ai constaté ça aussi, les outils mis en place (Anubis chez nous) soulagent bien les serveurs face à la pression des robots mais les crawlers web "légitimes" sont des victimes collatérales de ces mesures. Du coup, des sites institutionnels ne peuvent de facto plus être archivés.
                    Les guillemets autour de légitime sont volontaires, car qu'est-ce qui distingue (hors système de patte blanche) un robot légitime d'un robot illégitime? L'agressivité de la capture?

                    bertrandcaron@digipres.clubB pulkomandy@mastodon.tetaneutral.netP 2 Replies Last reply
                    0
                    • archeenerd@digipres.clubA archeenerd@digipres.club

                      @BertrandCaron Effectivement, j'ai constaté ça aussi, les outils mis en place (Anubis chez nous) soulagent bien les serveurs face à la pression des robots mais les crawlers web "légitimes" sont des victimes collatérales de ces mesures. Du coup, des sites institutionnels ne peuvent de facto plus être archivés.
                      Les guillemets autour de légitime sont volontaires, car qu'est-ce qui distingue (hors système de patte blanche) un robot légitime d'un robot illégitime? L'agressivité de la capture?

                      bertrandcaron@digipres.clubB This user is from outside of this forum
                      bertrandcaron@digipres.clubB This user is from outside of this forum
                      bertrandcaron@digipres.club
                      wrote last edited by
                      #10

                      @archeenerd excellente question à laquelle je laisse de plus experts que moi répondre 😃 ! Et merci du retour !

                      1 Reply Last reply
                      0
                      • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                        Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
                        1/2

                        mab@mastodon.xyzM This user is from outside of this forum
                        mab@mastodon.xyzM This user is from outside of this forum
                        mab@mastodon.xyz
                        wrote last edited by
                        #11

                        @BertrandCaron As-tu une idée de si c'est la cause du dysfonctionnement actuel de l'accès à EuroPresse auquel l'abonnement BnF permet habituellement d'accéder ?

                        bertrandcaron@digipres.clubB 1 Reply Last reply
                        0
                        • mab@mastodon.xyzM mab@mastodon.xyz

                          @BertrandCaron As-tu une idée de si c'est la cause du dysfonctionnement actuel de l'accès à EuroPresse auquel l'abonnement BnF permet habituellement d'accéder ?

                          bertrandcaron@digipres.clubB This user is from outside of this forum
                          bertrandcaron@digipres.clubB This user is from outside of this forum
                          bertrandcaron@digipres.club
                          wrote last edited by
                          #12

                          @mab alors pour le coup - non pas vraiment. Si j'ai bien compris, le nombre d'accès par mois à Europresse a été à nouveau atteint, la BnF a négocié une rallonge, qui a été ou est en passe d'être consommée. Europresse semble penser que des lecteur·ice·s pourraient utiliser ces accès pour les moissonner. Apparemment le torchon brûle entre l'institution et Europresse.

                          mab@mastodon.xyzM 1 Reply Last reply
                          0
                          • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                            @mab alors pour le coup - non pas vraiment. Si j'ai bien compris, le nombre d'accès par mois à Europresse a été à nouveau atteint, la BnF a négocié une rallonge, qui a été ou est en passe d'être consommée. Europresse semble penser que des lecteur·ice·s pourraient utiliser ces accès pour les moissonner. Apparemment le torchon brûle entre l'institution et Europresse.

                            mab@mastodon.xyzM This user is from outside of this forum
                            mab@mastodon.xyzM This user is from outside of this forum
                            mab@mastodon.xyz
                            wrote last edited by
                            #13

                            @BertrandCaron À tout juste la moitié du mois… ça craint.

                            J'espère qu'ils trouveront un accord. Mais effectivement, la problématique de moissonage de données n'est probablement pas simple à traiter, surtout en limitant les couts.

                            bertrandcaron@digipres.clubB 1 Reply Last reply
                            0
                            • archeenerd@digipres.clubA archeenerd@digipres.club

                              @BertrandCaron Effectivement, j'ai constaté ça aussi, les outils mis en place (Anubis chez nous) soulagent bien les serveurs face à la pression des robots mais les crawlers web "légitimes" sont des victimes collatérales de ces mesures. Du coup, des sites institutionnels ne peuvent de facto plus être archivés.
                              Les guillemets autour de légitime sont volontaires, car qu'est-ce qui distingue (hors système de patte blanche) un robot légitime d'un robot illégitime? L'agressivité de la capture?

                              pulkomandy@mastodon.tetaneutral.netP This user is from outside of this forum
                              pulkomandy@mastodon.tetaneutral.netP This user is from outside of this forum
                              pulkomandy@mastodon.tetaneutral.net
                              wrote last edited by
                              #14

                              @archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

                              bertrandcaron@digipres.clubB pulkomandy@mastodon.tetaneutral.netP 2 Replies Last reply
                              0
                              • mab@mastodon.xyzM mab@mastodon.xyz

                                @BertrandCaron À tout juste la moitié du mois… ça craint.

                                J'espère qu'ils trouveront un accord. Mais effectivement, la problématique de moissonage de données n'est probablement pas simple à traiter, surtout en limitant les couts.

                                bertrandcaron@digipres.clubB This user is from outside of this forum
                                bertrandcaron@digipres.clubB This user is from outside of this forum
                                bertrandcaron@digipres.club
                                wrote last edited by
                                #15

                                @mab c'est clair...

                                C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???

                                Bertrand Caron (@BertrandCaron@digipres.club)

                                Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)

                                favicon

                                digipres.club (digipres.club)

                                mab@mastodon.xyzM 1 Reply Last reply
                                0
                                • pulkomandy@mastodon.tetaneutral.netP pulkomandy@mastodon.tetaneutral.net

                                  @archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

                                  bertrandcaron@digipres.clubB This user is from outside of this forum
                                  bertrandcaron@digipres.clubB This user is from outside of this forum
                                  bertrandcaron@digipres.club
                                  wrote last edited by
                                  #16

                                  @pulkomandy @archeenerd dans mon souvenir, le robot de la BnF se présente comme Heritrix (https://en.wikipedia.org/wiki/Heritrix), ce qui le rend déjà assez repérable comme provenant d'une institution de préservation.

                                  pulkomandy@mastodon.tetaneutral.netP 1 Reply Last reply
                                  0
                                  • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                                    L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

                                    Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

                                    2/2

                                    tuxicoman@social.jesuislibre.netT This user is from outside of this forum
                                    tuxicoman@social.jesuislibre.netT This user is from outside of this forum
                                    tuxicoman@social.jesuislibre.net
                                    wrote last edited by
                                    #17

                                    @BertrandCaron

                                    Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?

                                    bertrandcaron@digipres.clubB 1 Reply Last reply
                                    0
                                    • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                                      L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

                                      Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

                                      2/2

                                      julienfalgas@piaille.frJ This user is from outside of this forum
                                      julienfalgas@piaille.frJ This user is from outside of this forum
                                      julienfalgas@piaille.fr
                                      wrote last edited by
                                      #18

                                      @BertrandCaron

                                      Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

                                      Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

                                      Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

                                      On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

                                      lutindiscret@mastodon.libre-entreprise.comL 1 Reply Last reply
                                      0
                                      • bertrandcaron@digipres.clubB bertrandcaron@digipres.club

                                        @mab c'est clair...

                                        C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???

                                        Bertrand Caron (@BertrandCaron@digipres.club)

                                        Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)

                                        favicon

                                        digipres.club (digipres.club)

                                        mab@mastodon.xyzM This user is from outside of this forum
                                        mab@mastodon.xyzM This user is from outside of this forum
                                        mab@mastodon.xyz
                                        wrote last edited by
                                        #19

                                        @BertrandCaron Alors pour ma part c'est le moment de renouvellement de mon abo BnF !

                                        Mais ma conso EuroPresse se limite à un ou deux articles par semaine en moyenne 🙃

                                        1 Reply Last reply
                                        0
                                        • tuxicoman@social.jesuislibre.netT tuxicoman@social.jesuislibre.net

                                          @BertrandCaron

                                          Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?

                                          bertrandcaron@digipres.clubB This user is from outside of this forum
                                          bertrandcaron@digipres.clubB This user is from outside of this forum
                                          bertrandcaron@digipres.club
                                          wrote last edited by
                                          #20

                                          @tuxicoman la #BnF ne moissonne que le web public. Exit facebook, Linkedin et toute autre plateforme derrière authentification. Sauf cas très particuliers, à la suite de négos avec les producteurs (par ex., le robot s'authentifie sur les sites de presse quotidienne régionale pour aller chercher les PDF des fascicules, mais c'est un processus qui est mis en place après accord explicite).

                                          pierstoval@mastodon.socialP 1 Reply Last reply
                                          0
                                          Reply
                                          • Reply as topic
                                          Log in to reply
                                          • Oldest to Newest
                                          • Newest to Oldest
                                          • Most Votes


                                          • Login

                                          • Login or register to search.
                                          • First post
                                            Last post
                                          0
                                          • Categories
                                          • Recent
                                          • Tags
                                          • Popular
                                          • World
                                          • Users
                                          • Groups