Obtenir des informations sur les livres pour faire un moteur de recherche plus détaillé

Accueil Forums Support technique Obtenir des informations sur les livres pour faire un moteur de recherche plus détaillé

15 sujets de 1 à 15 (sur un total de 18)
  • Auteur
    Messages
  • #144858
    GGurvan
    Participant
      #161688
      GGurvan
      Participant

        Bonjour,





        Tout d'abord merci pour ce site fantastique (en particulier aux lecteurs(-traducteurs) de Lovecraft, J-H Rosny Aîné et Jules Verne 🙂 )



        Comme j'aime écouter des livres audio entre autres le soir en m'endormant je me suis souvent dit que ce serait très pratique de pouvoir les rechercher par durée pour récupérer des nouvelles courtes pour quand je suis fatigué.

        Cela a évolué en une idée de moteur de recherche plus détaillé qui permettrait grosso modo de dire : “trouve-moi une nouvelle fantastique ou gothique du XIXème siècle, mais pas de Maupassant, entre 15 et 35 minutes, lue par X ou Y, mais pas par Z”.

        J'imagine qu'un tel moteur serait compliqué à mettre en place directement sur la base de données de production pour des raisons de sécurité (SQL injection et compagnie…), mais je serais intéressé d'essayer d'en créer un externe.



        Je me demandais donc s'il serait possible d'obtenir pour les livres du site :

        auteur(s), titre, durée, tags, [genre(s)], [période], [lecteur(s)]

        en format JSON, XML, CSV, SQL ou même texte, peu importe, je pourrais les convertir par moi-même (et je pourrais extraire les trois derniers champs des tags moi-même au besoin)



        S'il n'est pas possible de récupérer un dump/export, serait-il possible pour moi de scraper le site pour récupérer ces informations moi-même s'il vous plaît? (je suis familier avec Scrapy donc je pourrais faire un crawler très lent qui pourrait récupérer ces infos sur plusieurs jours sans surcharger les serveurs, en ne dépassant pas un taux de requêtes spécifié par vous au besoin 🙂 )



        Si je vois que je ne suis pas le seul intéressé par ce projet je pourrais ajouter Librivox ou d'autres sources ultérieurement, mais Litterature-audio est mon préféré pour les livres en français donc je voudrais commencer par celui-ci 🙂



        Cordialement,

        Gurvan

        #161689

        Gurvan,

        Résumons-nous : Vous souhaitez nous scraper en nous faisant un crawler très lent.

        Vous ne manquez pas d'audace !

        Avez-vous considéré une seule seconde avant de formuler une telle proposition que vous pouviez être en train de frapper à la porte de… gens honnëtes ?

        #161690
        GaëlleGaëlle
        Maître des clés

          Cher Gurvan, Je ne suis pas tout à fait certaine de comprendre les détails techniques de votre message (je soupçonne que crawler n’a qu’un rapport lointain avec la natation …), mais il me semble comprendre que vous cherchez en fait un outil déjà mis en place par un audio-lecteur serviable et exigeant tout à la fois, et que je vous recommande de tester :  [lien supprimé à la demande du créateur] GaëLL

          #161691
          GGurvan
          Participant

            GaëLL a écrit :

            Cher Gurvan,

            Je ne suis pas tout à fait certaine de comprendre les détails techniques de votre message (je soupçonne que crawler n’a qu’un rapport lointain avec la natation …), mais il me semble comprendre que vous cherchez en fait un outil déjà mis en place par un audio-lecteur serviable et exigeant tout à la fois, et que je vous recommande de tester.

            GaëLL


            Bonjour GaëLL,



            Oui, c'est exactement ce que je comptais créer, merci! :) Il y a pour moi deux petits défauts :

            – seules les grandes catégories sont sélectionnables, pas les tags ou les époques, donc pour moi qui suis friand de nouvelles/romans fantastiques ou gothiques du 19ème siècle par exemple, impossible de faire cette recherche

            – le service ne fonctionne pas pour l'instant, il semble y avoir un problème avec la configuration des sessions

            Mais je vais m'adresser au webmaster directement, merci encore :)



            Et désolé pour l'anglicisme, les traductions de termes informatiques sont souvent tellement alambiquées ou bizarres que personne ne les utilise et qu'il est plus simple de garder les termes anglais quand on s'adresse à d'autres gens de la partie « technique » :p

            Un « crawler » ou « spider » est un programme qui explore un site web, en requêtant toutes les pages (autorisées, on peut interdire des pages/parties du site dans robots.txt), et typiquement extrait des données de ces pages.

            Les moteurs de recherche, les comparateurs, les annuaires, les sites d'indexation divers et bien d'autres sites « crawlent » le web en permanence pour récupérer des informations, liens, etc. Typiquement un site veut être crawlé par le maximum de moteurs ou sites afin de recevoir plus de traffic.

            Mais il existe aussi des gens indélicats qui scannent trop vite/fort pour les serveurs, ou dans les parties interdites du site, ou pour reprendre les données extraites à leur compte sans mettre des liens ou citer la source. Mais de la même façon que les cambrioleurs frappent rarement à la porte d'entrée, ils prennent rarement la peine de créer un compte pour demander l'autorisation de crawler ;)



            Donc Jean-Pierre je ne comprends pas vraiment votre indignation ou en quoi ma demande pourrait faire de vous des gens malhonnêtes? À vous lire on dirait que je frappe à votre porte pour vous demander de cacher 50 kg d'héroïne, et non simplement les méta-données concernant les ouvrages de ce site pour faciliter la vie des auditeurs :) On dirait qu'il y a eu mauvaise communication de ma part ou j'aimerais comprendre votre raisonnement.


            #161692
            BBenoit du L.
            Participant

              @Gurvan,

              Un crawler ou spider se traduit en français par “robot d'indexation”.

              C'est du moins ce qu'on utilise dans la Silicone Valley où j'habite.

              Salutations !

              #161693

              Gurvan,

              Une simple plaisanterie de potache (très) attardé et, à l'évidence, trop hermétique.

              Il n'y avait pas la moindre indignation réelle dans mon propos.

              Bonne continuation,

              Jean-Pierre

              #161694
              Daniel LuttringerDaniel Luttringer
              Participant

                Oui, il fallait comprendre ” gens honnestes”…

                DanielLuttringer

                #161695

                Tout à fait, Daniel !

                #161696
                GGurvan
                Participant

                  Désolé Jean-Pierre, je n'avais effectivement pas compris la plaisanterie 🙂 (pour être honnête je ne l'ai toujours pas saisie ^_^' j'avais noté le tréma la première fois mais ne comprends pas sa signification. Les “est” du français médiéval ont souvent été transformés “êt” et non “ët”, à ma connaissance du moins, et je n'ai toujours pas compris :p)



                  @Benoit du L.

                  Oui, c'est effectivement un des termes pour lesquels la traduction est parlante et adaptée, mais “robot d'indexation” évoque Google, Baidu, Yahoo et autres “géants” du web, cela me semblait donc un peu prétentieux pour un simple spider Scrapy crawlant un seul site pour un petit projet personnel ^^

                  #161697
                  GaëlleGaëlle
                  Maître des clés

                    Cher Gurvan,

                    Vous avez raison, le site ne semble plus marcher chez moi non plus ! C’est bien dommage, il est très pratique. Sur LA, le concepteur a pour pseudo Stressless, que vous pouvez sans doute contacter en message privé.
                    Mais en sélectionnant trop étroitement vos lectures, vous ne prenez pas le risque d’être séduit par un texte que vous n’auriez pas choisi de prime abord, n’est-ce pas regrettable, quand la base de LA est si diverse ?

                    GaëLL

                    #161698
                    GGurvan
                    Participant

                      Ha merci, je vais lui demander 🙂



                      J'essaye de rester ouvert, notamment aux livres de toutes les périodes, mais souvent je suis d'humeur pour un genre particulier 😉 (donc j'écoute/lis souvent plusieurs livres différents en parallèle pour satisfaire mon humeur du jour :p)

                      #161699
                      sstressless
                      Participant

                        Bonjour Gurvan et à tous,

                        Je suis l'auteur des outils de tri mentionnés par Gaëlle. L'accès à ces pages est momentanément fermé car j'ai hélas été victime d'un malfaisant qui a fracturé la porte d'accès à mon hébergement et qui a “cassé la baraque”. Je suis en train de réparer le tout et ces outils devraient à nouveau être en ligne dans les jours qui viennent. Les utilisateurs voudront bien me pardonner pour cette interruption.

                        Il est vrai que l'anglicisme “scraper” peut porter à confusion et j'appuie la réaction de l'excellent DDV Jean-Pierre Baillot dont je me suis délecté, il y a peu, de sa lecture de “Les Employés” de Balzac. Merci M. Baillot !

                        Une jolie traduction de “Scraper” ou “Crawler” pourrait être “Moissonner”.

                        @Gurvan – J'ai bien reçu l'e-mail que vous m'avez adressé depuis les pages de mon site de tri et je vais vous répondre incessamment. Je vous propose donc de continuer cette discussion par échange d'e-mails privés. A bientôt et cordiales salutations à tous.

                        Daniel T. (un peu moins Stressless ces temps… Déçu )

                        * * * * * * * * * * * * *

                        #161700
                        GGurvan
                        Participant

                          Avec plaisir (prenez votre temps si vous êtes débordé, je ne suis pas pressé 🙂 )

                          #161701

                          Merci à vous, stressless, de justifier (ou presque) mes plaisanteries stupides.

                          Surtout, bon courage pour vos travaux de réparation.

                          Jean-Pierre

                        15 sujets de 1 à 15 (sur un total de 18)
                        • Vous devez être connecté pour répondre à ce sujet.
                        Veuillez vous identifier en cliquant ici pour participer à la discution.
                        ×