DATAtourisme

Récupération automatique des références

Bonjour,

De nombreux champs de données ont leur valeurs qui comprennent des références à d’autres données via la balise « @id », et parfois cette référence est la seule donnée. De ce que j’ai pu en voir, cette donnée référencée est au format html.
Par ex : « @id » : « data:75ce03c6-050c-3250-96fc-bd95463bd768 » peut être lu sur « | DATAtourisme ».
Est-il possible de récupérer cette donnée sous un autre format via un GET, en json notamment, ou faut il scrapper le html pour en extraire la donnée voulue ?

Merci

Michaël

La réponse était dans la page elle même, avec un lien JSON, il suffit d’ajouter ?format=jsonld en fin de requête.

Mais cela mène à une autre problématique : peut-on avoir accès à ces ressources en illimité, ou du moins à hauteur de toutes les entrées pour lesquelles il n’y a pas d’autres données ?

Je fais mes tests sur les évènements sports et loisirs, et sur les 25000 entrées actuelles, 1566 n’ont que cette référence pour ce qui est des tarifs (855 après avoir enlevé les doublons) et l’on n’a pas d’autre choix que d’aller interroger ces références pour ne pas avoir de blanc en ce qui concerne les tarifs.

N’y a t-il pas le risque de se faire blacklister notre IP si on interroge à la volée les urls des références lorsque seules celles ci sont disponibles ?
Quelles sont les limitations, s’il y en a, de ces appels ?

Michaël

Bonjour,

Vous avez du choisit le format JsonLD. Avec ce format les sous ressources (identifiées comme vous l’avez comprit par @id) sont bien présentes dans votre fichier mais ne sons pas répétées. (Ce qui fait qu’ensuite dans le fichier elle sont uniquement citées par leur @id)

  • Soit vous utilisez une librairie JsonLD qui gère cette approche qui permet de gagner en taille de fichier (ou plus simplement encore avec votre parseur Json vous stockez les sous ressources dans une Map, pour y faire référence ensuite).
  • Soit je vous invite a utiliser le format « Fichiers Json » qui lui répète toutes les sous ressources dans les fichiers.

Effectivement si vous faites trop de requêtes pour venir chercher les ressources par leur lien web vous allez vous faire bannir. Cet accès est fait pour visualiser des ressources et en télécharger quelques unes mais n’est pas adapté à un téléchargement massif.

Cordialement

Bonjour,

Merci pour votre retour, je créé maintenant un dictionnaire pour permettre de compléter les entrées qui comprennent des id sans données.

En effectuant des vérifications, je tombe toujours néanmoins sur des id dont les valeurs correspondantes n’ont pas été fournies ne serait-ce qu’une seule fois. Par exemple aucune valeur n’est associé à l’id 8f451bb0-2b7b-3336-ae9e-797304dd19a3 pour aucune des 3 requêtes a0352ee61fa79045db499457c38c376b, ea3c2775727545367586c72ef41f679c ou 8a74498b19f70c3e9d311ccc50279a11, je n’ai donc aucun moyen de récupérer les valeurs pour cet id.
Je pourrais fournir de nombreux autres id dans le même cas (79 identifiés dans « schema:offers », 1580 identifiés dans « takesPlaceAt »).

Pouvez-vous vérifiez ce qu’il en est de votre côté svp, et corriger le cas échéant ?