DATAtourisme

Récupération des POIs et limitation aux mises à jour

Bonjour

Voilà un an que nous avions été en contact pour le projet Data&Musée. Après avoir pris en compte les choix de représentation de DataTourisme, nous avons repris notre démarche d’utilisation des données de DataTourisme.

Le flux

https://diffuseur.datatourisme.gouv.fr/fr/flux/3071/processes

que vous aviez mis en place pour nous est d’environ 1Go chaque jour qui devraient, idéalement, être chargés tous les jours, alors que probablement, la différence d’un jour à l’autre est faible.

Probablement y aurait-il une démarche efficace et pour vous et pour nous. J’ai pensé à faire une requête qui demande les éléments modifiés depuis une certaine date, mais cela nécessiterait de modifier (à la main?) le flux chaque fois qu’on voudrait récupérer les données, en tenant compte de la date du dernier chargement effectué. Y a-t-il une méthode recommandée?

De plus, j’ai noté par exemple que notre flux annonçait 265046 POI dimanche 10/11 et 264355 POI lundi 11/11, ce qui suggère que des données sont supprimées à certaines dates; pour ces données, j’imagine qu’il n’y a plus de date de mise à jour, donc pas de possibilité de jouer sur cette date pour trouver les différences d’une version du flux à l’autre.

Note: Avec notre effort actuel pour avoir des liens forts avec les données de DataTourisme, je serais intéressé par une réunion (téléphonique?) pour évoquer nos intentions et vos recommandations pour travailler en bonne synergie.

Bonjour,

Votre demande m’intéresse. Avez-vous eu une réponse de DATAtourisme par téléphone ?
Je suis curieux de connaitre leurs préconisations.

Pour récupérer les ajouts du jour seulement (ou par exemple du dernier mois), on peut utiliser la fonction SPARQL : NOW() qui renvoie la date du jour. Pas nécessairement besoin de changer la requête à chaque fois.

Par contre si vous voulez prendre en compte votre dernier téléchargement, c’est plus délicat.
De même le problème que vous soulevez sur les données enlevées n’a pas de solution simple.

Crdlt

David Rouquet

Bonjour,

C’est une problématique à laquelle nous réfléchissons actuellement.
En attendant :

Probablement y aurait-il une démarche efficace et pour vous et pour nous. J’ai pensé à faire une requête qui demande les éléments modifiés depuis une certaine date, mais cela nécessiterait de modifier (à la main?) le flux chaque fois qu’on voudrait récupérer les données, en tenant compte de la date du dernier chargement effectué. Y a-t-il une méthode recommandée?

Il existe une propriété « Date de mise à jour » dans les flux actuels, que vous pouvez exploiter et qui précise la date a laquelle le POI a été modifié pour la dernière fois dans la base de données locale (SIT). En complément, nous allons ajouter dans les prochains jours, une propriété « date de mise à jour du POI dans l’entrepôt DATAtourisme », que vous pourrez exploiter pour ne récupérer que ce qui a changé dans le flux depuis la veille. Cela vous permettra notamment d’identifier les nouveaux POI entrants.

De plus, j’ai noté par exemple que notre flux annonçait 265046 POI dimanche 10/11 et 264355 POI lundi 11/11, ce qui suggère que des données sont supprimées à certaines dates; pour ces données, j’imagine qu’il n’y a plus de date de mise à jour, donc pas de possibilité de jouer sur cette date pour trouver les différences d’une version du flux à l’autre.

Effectivement, certains POI sont amenés à disparaitre de l’entrepôt DATAtourisme, pour diverses raisons : un événement (fête et manifestation) dont la date est passée, ou un POI que le producteur a souhaité retirer de la base (par exemple un établissement qui ferme ou une problématique qualité sur une donnée nécessitant d’être retravaillée). Dans ce cas, les suppressions n’étant pas présentes dans le flux, nous n’aurez pas d’autre choix que d’absorber régulièrement en temps le flux complet pour supprimer les éléments en trop.

Enfin, pour prendre contact avec l’équipe projet sur des sujets non techniques, nous vous invitons à utiliser l’adresse contact@datatourisme.fr

Bien cordialement,
L’équipe DATAtourisme.

Bonjour, étant néophyte en terme de requête pourriez vous me donner le texte de la requête pour ne récupérer que les POI (fêtes et manifestations) intégrés depuis 1 semaine.
Merci.
Cordialement.

Bonjour,

Vous pouvez utiliser ce filtre dans votre requête SPARQL :

?poi <https://www.datatourisme.gouv.fr/ontology/core#lastUpdateDatatourisme> ?date.
FILTER((NOW() - ?date) < 7)

Vous aurez uniquement les objets ayant été mis à jour sur DATAtourisme dans les 7 derniers jours.

Voici un exemple complet pour les FMA :

CONSTRUCT { 
  ?res <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <urn:resource>. 
} WHERE { 
  <http://www.bigdata.com/queryHints#Query> <http://www.bigdata.com/queryHints#optimizer> "None".
  ?res <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <https://www.datatourisme.gouv.fr/ontology/core#EntertainmentAndEvent>.
  ?res <https://www.datatourisme.gouv.fr/ontology/core#lastUpdateDatatourisme> ?date.
  FILTER((NOW() - ?date) < 7)
}

Cordialement

1 « J'aime »