Bonjour,
On peut télécharger un flux au format xml avec l’url :
https://diffuseur.datatourisme.gouv.fr/webservice/{NomService}/{app_key}
NomService est fourni sur la page paramètres du flux demandé
et app_key est obtenue dans l’onglet application (à côté de Flux) en haut de page.
Ce flux s’exploite en créant une base qui contient tous les enregistrements téléchargés ; on sélectionne les POI qui ont une valeur « dc_identifier » et on remplace les uri par leur contenu récursivement. Le premier traitement est très très long (compter 12 heures), mais un traitement quotidien qui ne traite en pratique que les nouveaux POI devient rapide. Après optimisation nous sommes à moins d’une heure par jour sur une base de 50.000 POI environ (la base d’enregistrements récupérés comporte, elle environ 500.000 enregistrements actifs, c’est à dire non terminés).
Nous avons comparé ce procédé à l’utilisation de l’API Blazegraph. Les résultats sont en défaveur de l’API datatourisme si l’on traite la base totale.
En revanche, l’API datatourisme peut s’envisager pour des requêtes portant sur peu de POI et le résultat sera alors plus rapide et complet.
Avec l’API la difficulté vient du chargement dans blazegraph que nous ne parvenons à effectuer que sur de petits fichiers, une erreur de timeout survient sur de gros fichiers et nous n’avons pas réussi (avec nos moyens matériels) à solutionner ce point.
Une seconde difficulté de l’API provient des requêtes d’extraction : dès que nous dépassons 500 POI (avec nos moyens matériels actuels), la requête échoue faute de mémoire. Pour obtenir l’ensemble des POI de la base, il faut donc lancer une série d’extractions (donc 100 pour 50 000 POI). Résultat, le gain de temps gagné en exécutant la requête d’extraction -très rapide en effet- est largement reperdu par le processus de lancement de requêtes successives, sans compter la difficulté d’exploitation induite. Mais si l’on ne traite que moins de 500 POI, l’API devient intéressante.
En pratique pour nous après plus d’un an d’essais comparatifs, nous avons retenu la formule d’exploitation directe quotidienne du flux xml téléchargé. Le traitement s’est révélé assez compliqué, mais pas nettement plus qu’exploiter un fichier issu de l’API car dans tous les cas, un utilisateur retraite le résultat obtenu.
Nous avons mis à disposition sur data.gouv.fr le résultat quotidien de nos traitements au format .csv. Attention : ce fichier ne concerne que les POI événementiels et non les POI d’itinéraire, de sites, d’hébergement ou restaurants.
Le fichier comporte encore quelques imperfections dans le cas d’occurrences multiples sur les horaires et tarifs, mais nous l’améliorerons progressivement.
Cordialement,
C. LEROY