DATAtourisme

Variabilité de la structure du champ "Description"

Lors de l’extraction de données à partir de fichiers JSON j’ai identifié un problème lié à la variabilité de la structure du champ « Description ». Cette variabilité complique l’extraction cohérente des descriptions nécessaires pour le traitement et l’analyse des données.

Structure 1 : Le champ « Description » est inclus sous shortDescription.
« hasDescription »: [
{
« shortDescription »: {
« fr »: [« Description en français »]
}
}
]

Structure 2 : Le champ « Description » est inclus sous dc:description.
« hasDescription »: [
{
« dc:description »: {
« fr »: [« Description en français »]
}
}
]

Cette variabilité de structure entraîne un échec de l’extraction de la description pour certains fichiers JSON si elle n’est pas détectée en amont. Ce qui a été mon cas sur quelques milliers de POI avant que je m’en aperçoive.

Il faudrait standardiser la structure des fichiers JSON pour éviter ces variations. Cela facilitera l’extraction et l’analyse des données.

Bonjour,

la structure est stable :
le champ hasDescription pointe vers une liste descriptions.
dans cette liste il peut y avoir des descriptions longues (dc:description) ou des descriptions courtes (shortDescription)

Voici un exemple de POI avec les deux types de descriptions :
le POI → LA TOUR BARBACANE | DATAtourisme
Le sous-objet description : | DATAtourisme

Cordialement