DATAtourisme

POI souvent en double dont un sans info

Bonsoir,
J’ai remarqué que de nombreux POI étaient en double avec un des deux qui ne possédait pas toutes les infos, et une géolocalisation différente de presque rien.
Exemple avec le musée de l’Orangerie :

Merci d’avance

Bonjour,
Merci pour ce signalement. Pouvez vous préciser si les « nombreux POI » auxquels vous faites référence sont tous situés sur Paris ? Sinon avez vous une liste plus complète ? (à nous transmettre à contact@datatourisme.fr)
Dans l’exemple précis du musée de l’Orangerie, le doublon est dû à une publication du POI par deux producteurs de données différents, en l’occurence la ville et la région. Nous les contactons pour ajuster leurs règles de publication.

Bonne journée

Bon courage pour ce problème c’est vrai que c’était une problématique qui apparaissait souvent.
Là on voit qu’un point est créé par OT de Paris et l’autre par le CRT…

Merci pour votre réponse. Il y en a beaucoup à Paris en effet mais pas que. En sortant de Paris, j’en vois qqns comme :

  • Château de Breteuil
  • Maison Natalle de Louis Braille
    Je n’ai malheureusement pas de liste complète mais juste en naviguant dans la liste.

Dubbele POI’s zijn er nog steeds. We hebben vorige week Parijs gedownload om de kwaliteit van de gegevens te onderzoeken en we merkten nog steeds veel dubbele gegevens op.
Hoe kunnen we helpen dit op te lossen?

Duplicate POIs still exist. We downloaded Paris last week to examine the quality of the data and we still noticed a lot of duplicate data.
How can we help resolve this?

Hello
Zou u, om dit probleem op te lossen, de verschillende URI’s van een duplicaat kunnen aangeven:
ex : Musée de Cluny – musée national du Moyen Âge | DATAtourisme
Merci :slight_smile:

Hello @Poortinga_YPE ,
You are right, the Cluny museum appears twice in the database (but not 4 times?), and it is the same problem as the example quoted above: we have two data providers for the City of Paris, namely the Paris tourist office and the Ile de France regional tourist committee. We are going to check with them again to improve this problem of duplication.
Normally, duplications are rare because we have chosen to have only 1 supplier per geographical area (except for Paris). However, we can see that some suppliers send data outside their zones.
This is an essential point for the quality of the data, and we are working on it. The deduplication is not technically simple because there is generally no criterion for matching data (there is no unique identifier on which we could base ourselves).
Have a nice day and thanks for your feedback!

Understand, I hope there will be a solution for this problem, since it will make Paris unusefull for our APP.
Technical undubble Idea-1 (?maybe?): Is it possible to select POI’s in short distance, phonetic check the names and then use one of the two providers (whatever you think which is the most important).

Bonjour,
Le problème de doublon ont déjà résolu par un simple condition sur nos scripts;
Je pense c’est simple a le faire mais ca réduit le nombre d’enregistrement parfois même a 50% dans des fichiers