Je travaille depuis quelques semaines sur des extractions visant a fournir un service aux touristes en France en famille avec enfants. Ce service fournit entre autre une geolocalisation des activites pour les enfants.
Le bon cote est que Datatourisme m’a permis de recuperer une base de donnees d’activites interessante sur toute la France. Mais par ailleurs, cette base de donnees d’activites est suffisamment polluee par des informations incoherentes pour que cela demande une grande charge de travail pour rectifier ces informations.
Je vous donne ici un cas qui est assez representatif: Trampoline Park à Saint Jean de Luz | DATAtourisme
Classifications: beaucoup de classifications ont ete selectionnees, rendant la lecture difficile voir trompeuse si les classifications ont mal ete choisies.
Themes: Escalade, Tennis, Roller. Or cette societe ne propose aucune de ces trois activites.
Cet exemple se produit beaucoup trop souvent. Par consequent, les deux champs qui ont le plus de valeur ajoutee deviennent inexploitables et polluent toute exploitation algorithmique a grande echelle. Cela se produit sur un petit pourcentage (je dirais dans les 10%) des donnees mais cela est suffisant pour devoir me tourner vers d’autres sources de donnees moins volumineuses mais plus fiables pour une exploitation a grande echelle.
Le projet Datatourisme est une tres bonne initiative. Mais pour exploiter ces donnees en grand nombre dans un cadre professionnel il faut trouver un moyen de fournir des donnees coherentes sur quasiment toutes les extractions.
Bonjour @Matthieu_BOULOGNE
Merci pour votre retour, nous avons pris contact auprès du producteur de données pour corriger ce problème.
La fiche diffusée sur le producteur est + juste, donc il semblerait que le pb se situe au niveau des alignements des thésaurus, cela sera vite corrigé, et ce pour toute la région Nouvelle Aquitaine.
C’est avec vous que DATAtourisme s’améliore. N’hésitez pas à nous signaler d’autres anomalies et contribuer ainsi à notre projet de publication des données riches en OpenData.
Bonjour @Matthieu_BOULOGNE,
Merci pour votre retour. Il y a en effet un souci. Cette fiche est en doublon dans notre base, l’une bien renseignée, l’autre curieusement saisie.
L’office de tourisme de la destination est averti, je pense qu’il va donner réponse très rapidement et corriger ces erreurs. Merci pour votre vigilance !
Je vous tiendrai informé.
Cordialement,
Florence, du CRT Nouvelle-Aquitaine