DATAtourisme

Détection de doublons

Bonjour
J’ai mis en place une étape de détection des doublons dans l’acquisition des POIs.
Je regarde si pour un POI il n’existe pas un autre POI à moins de 200m qui aurait un nom similaire.

Avec cette étape j’ai détecté 66 doublons. Voir le fichier .ods ou .xlsx du 27/02/2023 sur Nextcloud

Par contre maintenant que je sais détecter des doublons se pose la question de savoir entre 2 ou plusieurs POIs quel POI il convient de conserver ?

Est ce qu’il y a une règle à suivre ? Est ce que le POI avec la valeur lastupdate la plus récente est par exemple le POI qu’il convient probablement de conserver ou faut-il appliquer une autre règle ?

Merci pour votre réponse

Bonjour,

Dans un souci d’égalité de traitement entre les différentes structures alimentant DATAtourisme, nous ne définissons pour le moment pas de règle lorsqu’un POI a été publié par plusieurs producteurs.

Le choix entre les deux vous incombe donc. Il peut se faire grâce à la date de mise à jour en effet, mais la qualification du POI est tout aussi importante (vous pourrez avoir un POI récent mais très basique, sans photo et sans critères détaillés, et un autre POI un peu plus ancien mais très complet).
On peut aussi estimer que le producteur le plus légitime ou le plus à même de fournir l’information la plus fiable est celui dont la zone géographique de compétence correspond à la localisation du POI.

Sachez que nous menons actuellement une réflexion visant à faciliter la gestion de ces doublons. Nous envisageons par exemple de les identifier comme tels dans l’entrepôt avec une propriété reliant l’un à l’autre. Peut être à terme aussi définir des règles de priorisation, le sujet est à l’étude.

Une chose est sûre : nous ne pourrons pas consolider les doublons pour constituer un POI unique car la paternité de chaque élément doit être respectée et précisée.

Nous sommes à l’écoute des utilisateurs pour avancer sur le sujet :wink:

bonne journée