Obtenir des informations sur les livres pour faire un moteur de recherche plus détaillé

Ce sujet contient 17 réponses, 6 participants et a été mis à jour pour la dernière fois par Gaëlle, le il y a 5 années et 9 mois.

15 sujets de 1 à 15 (sur un total de 18)

1 2 →

Auteur
Messages
25 février 2019 à 12h01 #144858
GGurvan
Participant
25 février 2019 à 12h01 #161688
GGurvan
Participant
Bonjour,

Tout d'abord merci pour ce site fantastique (en particulier aux lecteurs(-traducteurs) de Lovecraft, J-H Rosny Aîné et Jules Verne 🙂 )

Comme j'aime écouter des livres audio entre autres le soir en m'endormant je me suis souvent dit que ce serait très pratique de pouvoir les rechercher par durée pour récupérer des nouvelles courtes pour quand je suis fatigué.

Cela a évolué en une idée de moteur de recherche plus détaillé qui permettrait grosso modo de dire : “trouve-moi une nouvelle fantastique ou gothique du XIXème siècle, mais pas de Maupassant, entre 15 et 35 minutes, lue par X ou Y, mais pas par Z”.

J'imagine qu'un tel moteur serait compliqué à mettre en place directement sur la base de données de production pour des raisons de sécurité (SQL injection et compagnie…), mais je serais intéressé d'essayer d'en créer un externe.

Je me demandais donc s'il serait possible d'obtenir pour les livres du site :

auteur(s), titre, durée, tags, [genre(s)], [période], [lecteur(s)]

en format JSON, XML, CSV, SQL ou même texte, peu importe, je pourrais les convertir par moi-même (et je pourrais extraire les trois derniers champs des tags moi-même au besoin)

S'il n'est pas possible de récupérer un dump/export, serait-il possible pour moi de scraper le site pour récupérer ces informations moi-même s'il vous plaît? (je suis familier avec Scrapy donc je pourrais faire un crawler très lent qui pourrait récupérer ces infos sur plusieurs jours sans surcharger les serveurs, en ne dépassant pas un taux de requêtes spécifié par vous au besoin 🙂 )

Si je vois que je ne suis pas le seul intéressé par ce projet je pourrais ajouter Librivox ou d'autres sources ultérieurement, mais Litterature-audio est mon préféré pour les livres en français donc je voudrais commencer par celui-ci 🙂

Cordialement,

Gurvan
25 février 2019 à 20h37 #161689
JJean-Pierre Baillot
Participant
Gurvan,

Résumons-nous : Vous souhaitez nous scraper en nous faisant un crawler très lent.

Vous ne manquez pas d'audace !

Avez-vous considéré une seule seconde avant de formuler une telle proposition que vous pouviez être en train de frapper à la porte de… gens honnëtes ?
25 février 2019 à 22h10 #161690
Gaëlle
Maître des clés
Cher Gurvan, Je ne suis pas tout à fait certaine de comprendre les détails techniques de votre message (je soupçonne que crawler n’a qu’un rapport lointain avec la natation …), mais il me semble comprendre que vous cherchez en fait un outil déjà mis en place par un audio-lecteur serviable et exigeant tout à la fois, et que je vous recommande de tester : [lien supprimé à la demande du créateur] GaëLL
26 février 2019 à 6h06 #161691
GGurvan
Participant
GaëLL a écrit :

Cher Gurvan,

Je ne suis pas tout à fait certaine de comprendre les détails techniques de votre message (je soupçonne que crawler n’a qu’un rapport lointain avec la natation …), mais il me semble comprendre que vous cherchez en fait un outil déjà mis en place par un audio-lecteur serviable et exigeant tout à la fois, et que je vous recommande de tester.

GaëLL

Bonjour GaëLL,

Oui, c'est exactement ce que je comptais créer, merci! Il y a pour moi deux petits défauts :

– seules les grandes catégories sont sélectionnables, pas les tags ou les époques, donc pour moi qui suis friand de nouvelles/romans fantastiques ou gothiques du 19ème siècle par exemple, impossible de faire cette recherche

– le service ne fonctionne pas pour l'instant, il semble y avoir un problème avec la configuration des sessions

Mais je vais m'adresser au webmaster directement, merci encore

Et désolé pour l'anglicisme, les traductions de termes informatiques sont souvent tellement alambiquées ou bizarres que personne ne les utilise et qu'il est plus simple de garder les termes anglais quand on s'adresse à d'autres gens de la partie « technique » :p

Un « crawler » ou « spider » est un programme qui explore un site web, en requêtant toutes les pages (autorisées, on peut interdire des pages/parties du site dans robots.txt), et typiquement extrait des données de ces pages.

Les moteurs de recherche, les comparateurs, les annuaires, les sites d'indexation divers et bien d'autres sites « crawlent » le web en permanence pour récupérer des informations, liens, etc. Typiquement un site veut être crawlé par le maximum de moteurs ou sites afin de recevoir plus de traffic.

Mais il existe aussi des gens indélicats qui scannent trop vite/fort pour les serveurs, ou dans les parties interdites du site, ou pour reprendre les données extraites à leur compte sans mettre des liens ou citer la source. Mais de la même façon que les cambrioleurs frappent rarement à la porte d'entrée, ils prennent rarement la peine de créer un compte pour demander l'autorisation de crawler

Donc Jean-Pierre je ne comprends pas vraiment votre indignation ou en quoi ma demande pourrait faire de vous des gens malhonnêtes? À vous lire on dirait que je frappe à votre porte pour vous demander de cacher 50 kg d'héroïne, et non simplement les méta-données concernant les ouvrages de ce site pour faciliter la vie des auditeurs On dirait qu'il y a eu mauvaise communication de ma part ou j'aimerais comprendre votre raisonnement.
26 février 2019 à 9h23 #161692
BBenoit du L.
Participant
@Gurvan,

Un crawler ou spider se traduit en français par “robot d'indexation”.

C'est du moins ce qu'on utilise dans la Silicone Valley où j'habite.

Salutations !
26 février 2019 à 9h48 #161693
JJean-Pierre Baillot
Participant
Gurvan,

Une simple plaisanterie de potache (très) attardé et, à l'évidence, trop hermétique.

Il n'y avait pas la moindre indignation réelle dans mon propos.

Bonne continuation,

Jean-Pierre
26 février 2019 à 10h05 #161694
Daniel Luttringer
Participant
Oui, il fallait comprendre ” gens honnestes”…

DanielLuttringer
26 février 2019 à 10h15 #161695
JJean-Pierre Baillot
Participant
Tout à fait, Daniel !
26 février 2019 à 11h12 #161696
GGurvan
Participant
Désolé Jean-Pierre, je n'avais effectivement pas compris la plaisanterie 🙂 (pour être honnête je ne l'ai toujours pas saisie ^_^' j'avais noté le tréma la première fois mais ne comprends pas sa signification. Les “est” du français médiéval ont souvent été transformés “êt” et non “ët”, à ma connaissance du moins, et je n'ai toujours pas compris :p)

@Benoit du L.

Oui, c'est effectivement un des termes pour lesquels la traduction est parlante et adaptée, mais “robot d'indexation” évoque Google, Baidu, Yahoo et autres “géants” du web, cela me semblait donc un peu prétentieux pour un simple spider Scrapy crawlant un seul site pour un petit projet personnel ^^
26 février 2019 à 13h59 #161697
Gaëlle
Maître des clés
Cher Gurvan,

Vous avez raison, le site ne semble plus marcher chez moi non plus ! C’est bien dommage, il est très pratique. Sur LA, le concepteur a pour pseudo Stressless, que vous pouvez sans doute contacter en message privé.
Mais en sélectionnant trop étroitement vos lectures, vous ne prenez pas le risque d’être séduit par un texte que vous n’auriez pas choisi de prime abord, n’est-ce pas regrettable, quand la base de LA est si diverse ?

GaëLL
26 février 2019 à 14h18 #161698
GGurvan
Participant
Ha merci, je vais lui demander 🙂

J'essaye de rester ouvert, notamment aux livres de toutes les périodes, mais souvent je suis d'humeur pour un genre particulier 😉 (donc j'écoute/lis souvent plusieurs livres différents en parallèle pour satisfaire mon humeur du jour :p)
26 février 2019 à 14h38 #161699
sstressless
Participant
Bonjour Gurvan et à tous,

Je suis l'auteur des outils de tri mentionnés par Gaëlle. L'accès à ces pages est momentanément fermé car j'ai hélas été victime d'un malfaisant qui a fracturé la porte d'accès à mon hébergement et qui a “cassé la baraque”. Je suis en train de réparer le tout et ces outils devraient à nouveau être en ligne dans les jours qui viennent. Les utilisateurs voudront bien me pardonner pour cette interruption.

Il est vrai que l'anglicisme “scraper” peut porter à confusion et j'appuie la réaction de l'excellent DDV Jean-Pierre Baillot dont je me suis délecté, il y a peu, de sa lecture de “Les Employés” de Balzac. Merci M. Baillot !

Une jolie traduction de “Scraper” ou “Crawler” pourrait être “Moissonner”.

@Gurvan – J'ai bien reçu l'e-mail que vous m'avez adressé depuis les pages de mon site de tri et je vais vous répondre incessamment. Je vous propose donc de continuer cette discussion par échange d'e-mails privés. A bientôt et cordiales salutations à tous.

Daniel T. (un peu moins Stressless ces temps… )

* * * * * * * * * * * * *
26 février 2019 à 15h25 #161700
GGurvan
Participant
Avec plaisir (prenez votre temps si vous êtes débordé, je ne suis pas pressé 🙂 )
26 février 2019 à 21h19 #161701
JJean-Pierre Baillot
Participant
Merci à vous, stressless, de justifier (ou presque) mes plaisanteries stupides.

Surtout, bon courage pour vos travaux de réparation.

Jean-Pierre
Auteur
Messages

15 sujets de 1 à 15 (sur un total de 18)

1 2 →

Vous devez être connecté pour répondre à ce sujet.

Veuillez vous identifier en cliquant ici pour participer à la discution.