DATAtourisme

Doublons (avec même producteur)

Vous trouverez sur

un nouveau fichier nommé doublons_dtt_20230323 (.ods ou .xlsx) avec près de 58 doublons dont plus d’une dizaine qui ont le même producteur.

L’URI de l’hébergement est en dernière colonne.

Pour trouver les doublons je regarde si il n’y a pas dans un périmètre de 200m autour d’un camping un autre camping avec un non similaire (Similarité - distance de levenshtein).

Et si il y a des campings qui sont effectivement créés par des producteurs différents, il y a aussi une dizaine de campings qui sont produit par la même entité.

Juste pour info, la colonne Agarder vaut 0 quand je ne retiens pas la donnée. La colonne id correspond à un id interne.

Beaucoup de doublons viennent du Gard. Peut-être qu’il y aurait moyens d’éviter cela non ?

cordialement