Récupération automatique des références

Ouazana_MICHAEL · Juillet 9, 2025, 8:32

Bonjour,

De nombreux champs de données ont leur valeurs qui comprennent des références à d’autres données via la balise « @id », et parfois cette référence est la seule donnée. De ce que j’ai pu en voir, cette donnée référencée est au format html.
Par ex : « @id » : « data:75ce03c6-050c-3250-96fc-bd95463bd768 » peut être lu sur « | DATAtourisme ».
Est-il possible de récupérer cette donnée sous un autre format via un GET, en json notamment, ou faut il scrapper le html pour en extraire la donnée voulue ?

Merci

Michaël

Ouazana_MICHAEL · Juillet 10, 2025, 9:21

La réponse était dans la page elle même, avec un lien JSON, il suffit d’ajouter ?format=jsonld en fin de requête.

Mais cela mène à une autre problématique : peut-on avoir accès à ces ressources en illimité, ou du moins à hauteur de toutes les entrées pour lesquelles il n’y a pas d’autres données ?

Je fais mes tests sur les évènements sports et loisirs, et sur les 25000 entrées actuelles, 1566 n’ont que cette référence pour ce qui est des tarifs (855 après avoir enlevé les doublons) et l’on n’a pas d’autre choix que d’aller interroger ces références pour ne pas avoir de blanc en ce qui concerne les tarifs.

N’y a t-il pas le risque de se faire blacklister notre IP si on interroge à la volée les urls des références lorsque seules celles ci sont disponibles ?
Quelles sont les limitations, s’il y en a, de ces appels ?

Michaël

conjecto · Juillet 10, 2025, 1:14

Bonjour,

Vous avez du choisit le format JsonLD. Avec ce format les sous ressources (identifiées comme vous l’avez comprit par @id) sont bien présentes dans votre fichier mais ne sons pas répétées. (Ce qui fait qu’ensuite dans le fichier elle sont uniquement citées par leur @id)

Soit vous utilisez une librairie JsonLD qui gère cette approche qui permet de gagner en taille de fichier (ou plus simplement encore avec votre parseur Json vous stockez les sous ressources dans une Map, pour y faire référence ensuite).
Soit je vous invite a utiliser le format « Fichiers Json » qui lui répète toutes les sous ressources dans les fichiers.

Effectivement si vous faites trop de requêtes pour venir chercher les ressources par leur lien web vous allez vous faire bannir. Cet accès est fait pour visualiser des ressources et en télécharger quelques unes mais n’est pas adapté à un téléchargement massif.

Cordialement

Ouazana_MICHAEL · Juillet 17, 2025, 1:34

Bonjour,

Merci pour votre retour, je créé maintenant un dictionnaire pour permettre de compléter les entrées qui comprennent des id sans données.

En effectuant des vérifications, je tombe toujours néanmoins sur des id dont les valeurs correspondantes n’ont pas été fournies ne serait-ce qu’une seule fois. Par exemple aucune valeur n’est associé à l’id 8f451bb0-2b7b-3336-ae9e-797304dd19a3 pour aucune des 3 requêtes a0352ee61fa79045db499457c38c376b, ea3c2775727545367586c72ef41f679c ou 8a74498b19f70c3e9d311ccc50279a11, je n’ai donc aucun moyen de récupérer les valeurs pour cet id.
Je pourrais fournir de nombreux autres id dans le même cas (79 identifiés dans « schema:offers », 1580 identifiés dans « takesPlaceAt »).

Pouvez-vous vérifiez ce qu’il en est de votre côté svp, et corriger le cas échéant ?

conjecto · Juillet 18, 2025, 2:04

Bonjour,

J’ai regardé votre flux « Events Sports et Loisirs JSON structuré » et l’objet avec ses propriétés dont l’id est 8f451bb0-2b7b-3336-ae9e-797304dd19a3, est bien présent la première fois qu’il est cité ligne 210674.

Je pense qu’il me manque des éléments pour vous aider.

Cordialement

Ouazana_MICHAEL · Juillet 20, 2025, 1:58

Bonjour,

Merci pour vos recherches et votre retour.
En regardant l’intégralité de la donnée je retrouve effectivement cet id renseigné : je pensais qu’il était forcément dans le champ « takesPlaceAt », du coup je me limitais à ce champ, mais je comprends qu’il peut être dans d’autres, notamment dans « appliesOnPeriod ».
Bon, ne me reste plus qu’à faire évoluer ma gestion pour interroger toutes les entrées potentielles…

Merci bbcp

Michaël

Récupération automatique des références

DATAtourisme

Espaces

Partenaires & liens utiles