Toujours une tannée à exploiter

Eric_QUILLEVERE · Juillet 17, 2021, 6:48

Bonjour,

J’avais abandonné depuis un long moment l’idée d’utiliser cette base DataTourisme, qui partait d’une bonne idée mais qui représente pour moi un modèle du genre de ce qu’il faut éviter dans l’Open Data : la complexité pour exploiter les données. Cela ne respecte pas certains critères caractérisant les données ouvertes comme l’accessibilité et l’exploitabilité.

Je réessaye ce jour, histoire de voir si les choses ont changé de ce côté. Je vois que des CSV sont à présent proposés « au commun des mortels » (ceux comme moi qui ne seraient pas foutus monter le serveur nécessaire pour exploiter les données).

Malheureusement ça n’a pas beaucoup changé : les données et leur exploitation sont toujours présentées de façon complexe.

Rien qu’essayer de télécharger un fichier CSV sur la page des téléchargements (https://www.data.gouv.fr/fr/datasets/datatourisme-la-base-nationale-des-donnees-du-tourisme-en-open-data/ ) fait souffler le processeur de mon PC ! Impossible de télécharger quoi que ce soit. A croire que vous minez du bitcoin pendant l’affichage des pages. J’ai essayé sur 2 navigateurs et 2 PC différents, même chose. Il s’agit juste d’afficher une URL de téléchargement !

Il faudrait vraiment que vous regardiez ce que font les autres.

Fred_JANON · Juillet 17, 2021, 7:22

Bonjour,

Je suggère de créer votre propre flux de generation de fichier csv après avoir créé un compte utilisateur:

Cette voie fonctionne très bien. Il y a de la documentation qui explique le processus, il me semble, je ne sais plus où.

Ensuite utiliser le bouton « télécharger la dernière version » du flux dont vous avez demandé la génération précédemment et qui prend un peu de temps à être mis en route.

Les fichiers sont plutôt volumineux, suivant vos critères de selection et devraient consommer de la bande passante de votre connection internet, mais probablement pas du CPU.

Vous ne devriez pas avoir de problème pour télécharger les fichiers, à part certaines heures ou des erreurs 500 apparaissaient quand les serveurs généraient les fichiers.

Hope that helps.

Courage…

Fred
consommateur de données datatourisme

Eric_QUILLEVERE · Juillet 17, 2021, 8:22

Bonjour,
Merci pour votre réponse, je vais réessayer par ce biais (que j’avais testé il y a quelques années déjà mais que j’avais abandonné. Je crois parce que le JSON généré était trop volumineux pour être traité par la mémoire de mon serveur).

C’est la page que j ai mise en lien qui consomme du CPU, ce n’est même pas le téléchargement en lui-même (testé sur Firefox et Opera), puisque celui-ci n’est pas accessible. Je pense que ça provient du code JS.

Fred_JANON · Juillet 17, 2021, 8:48

Oui la page

ne charge même pas.

DATAtourisme · Juillet 19, 2021, 4:35

Bonjour,

Les difficultés de chargement sur la page de Data.gouv.fr sont apparemment liés à la mise en place de la refonte de leur site car en repassant sur l’ancienne version de data.gouv.fr, les fichiers sont bien accessibles. Nous allons les alerter de ce dysfonctionnement.

Les fichiers CSV sont volumineux car il y a actuellement 420 000 points d’intérêt recensés et le compteur continue de grimper. C’est pour cette raison que nous avons posté sur le portail Data Gouv des fichiers simplifiés et découpés par région, plus légers à exploiter. Vous pourrez y accéder facilement en repassant sur la version précédente de DATA GOUV (en attendant que le pb soit réglé sur la nouvelle version).

Difficile de combiner richesse des données et légèreté du fichier… les fichiers proposés contiennent bien plus de critères que les bases classiques de recensement (qui proposent nom, catégorie, adresse, géoloc, téléphone). Nous fournissons des dizaines de critères de qualification, classement, descriptifs, le tout en deux langues…

Enfin, sachez que nous avons mis en place en juin 2020 une version Json et une version Xml des données, pour répondre à la demande des développeurs qui ne veulent pas exploiter de RDF. La contrepartie de ce type de fichier est leur poids : le fichier zip proposé sur la plateforme compte 1 fichier par point d’intérêt, donc en fonction du périmètre de votre flux (catégories choisirs, zone géographiques, filtres éventuels) le poids sera effectivement plus ou moins important.

Nous restons à l’écoute de nos utilisateurs pour améliorer le système, n’hésitez pas à nous faire vos suggestions avec des idées concretes que nous pourrons étudier. Et n’hésitez pas à solliciter les autres utilisateurs de la plateforme en posant vos questions sur ce forum : DATAtourisme compte aujourd’hui plusieurs centaines de réutilisateurs qui exploitent chaque jour des flux de données. Ils pourront sans doute vous donner quelques astuces pour vous guider.

A bientôt !

Olivier4477 · Juillet 24, 2021, 9:16

Perso ça fait 3 mois que j’essaye d’exploiter les données; mais à force de lire sur le sparql etc etc un moment j’ai du faire des choix.

Quand je me rend compte que mes vues mettent du temps à se charger alors que d’autre site sont hyper rapide je ne comprend pas comment ils sont développé leur site pour qu’il soit si performant.

Le + « énervant » c’est de voir les liens des fiches ici (La ressource demandée n'existe pas ! | DATAtourisme) se charger très très vite… et j’ai vue des sites qui charge et affiche les données demandé encore + vite… avec un vulgaire wordpress (pour certain). je ne sais pas comment qu’ils font jchui « deg »
Apache jena à mis 5 heures (bon apres peut être que je n’ai pas implémenté correctement aussi) pour charger les données, l’api docker stack est longue…

je commence à regretter de m’être lancé la dedans mais bon…

Simon_BLUM · Juillet 27, 2021, 6:23

Pour tes problèmes de performance normalement DATATourisme n’y est pour rien (et du coup comparer à d’autres sites ne sert à rien), ou j’ai loupé quelque chose. Rassure moi tu ne te connecte pas directement à DATATourisme pour chaque requête sur ton app ou site ? L’idéal (et la bonne pratique normalement) c’est d’avoir une base de données de « ton » côté

Il faut voir où se situe ce ralentissement, tu as peut être des logs quelque part ? Souvent c’est les connexions aux base de données, ta ou tes requêtes sont-elles optimisées ? tu as peut être des index à rajouter ou une requête trop complexe.

Jerome_SEPEAU · Janvier 6, 2022, 5:33

Bonjour

Je me confronte depuis quelques jours à la difficulté d’utiliser la plateforme. En parcourant vos mails je me rends compte que les problèmes sont récurrents et durables.

Je suis outré de constater qu’un service public ne soit pas orienté « utilisateurs ».

Je comprends aussi que la faible utilisation du service et du forum de support est surement due à l’impression que nous avons affaire à un mur.

Je continue a essayer de trouver des solutions…mais j’ai bien peur qu’elles ne doivent se trouver qu’à l’extérieur à coup de budgets non négligeables.

Cordialement,

Jérôme

Jean_Francois_TRICHA · Janvier 6, 2022, 7:21

Bonjour @Jerome_SEPEAU
Il ne faut pas être outré mais apprendre à se servir de ces technologies de traitement de données.
Vous disposez d’extractions au format CSV moins complètes mais plus abordables techniquement, cf. sur data.gouv.fr
Bon courage , vos efforts seront certainement récompensés en sachant ainsi traiter à l’avenir les très nombreuses données disponibles ailleurs dans les formats proposés par DATAtourisme.

Alexandra_CADET · Janvier 21, 2022, 8:51

J’intègre quotidiennement et de manière automatisé les données datatourisme pour le site keskonfai.fr depuis plus d’un an maintenant.
Cela est fait sur un serveur très peu puissant (beaucoup moins puissant que mon ordinateur portable) et avec très peu de mémoire.
La mise en place m’a peut être pris une semaine de travail le temps de comprendre le modèle de données et de l’adapter à mon besoin.
Tout cela pour dire que oui ce n’est pas trivial. Les données sont mises à disposition dans un format qui permet de tout avoir mais l’opendata ne peut pas fournir tous les formats pour tous les usages imaginables. Il faut les retravailler pour son besoin.

Bertrand_DEGOY · Janvier 25, 2022, 7:38

Bonjour,

Pour ma part je trouve cet opendata tout à fait intéressant.
Il est vrai que les données sémantiques sont difficiles à exploiter. Voici mon approche :

créer un compte de diffuseur,
créer une application,
créer un flux au format JSON,
Avec le CMS SPIP, accéder au flux avec une boucle DATA :

<BOUCLE_json(DATA)
  {source json, https://diffuseur.datatourisme.gouv.fr/webservice/VOTRE_ID/VOTRE_CLE
  {datapath VOTRE_DATA_PATH}  
  {" - "}{pagination 10}
>
  #VALEUR
</BOUCLE_yaml3>
#PAGINATION
</B_json>

Dans lequel vous remplacez VOTRE_ID/VOTRE_CLE par ce qui est indiqué dans l’URL du flux.

En espérant que cette piste puisse aider …

Bertrand Degoy i-Tego

Olivier4477 · Janvier 30, 2022, 11:00

Bonjour,

J’ai mis énormément de temps à comprendre également.
Mais bon maintenant tout fonctionne même si je peux améliorer.

Toujours une tannée à exploiter

DATAtourisme

Espaces

Partenaires & liens utiles