DATAtourisme

Utilisation de l'api avec des fichiers volumineux

Bonjour, j’ai l’impression que quelque chose m’échappe sur l’utilisation de l’api.
J’utilise la stack docker mise à disposition par datatourisme (merci!!!) avec des fichiers RDF.
Jusqu’à présent ça fonctionnait bien avec des fichiers d’environ 600mo.
Aujourd’hui j’ai essayé de mettre à jour avec un flux plus récent de 2,20GO et j’obtiens une erreur.
En local l’api graphql renvoie « sparql endpoint unreachable », en production j’ai oublié de noter l’erreur mais de mémoire c’est le serveur qui ne répondait pas, et l’interface blazegraph n’était plus accessible.

J’ai suivi la procédure de la documentation pour le remplacement du flux:

  • mon nouveau fichier a été placé dans le dossier datset/kb/data
  • j’ai executé les commandes docker-compose stop, docker-compose rm blazegraph et docker-compose up
  • le docker-compose.yml a déjà été modifié pour prendre en charge des fichiers plus lourds (JAVA_OPTS: "-Xms2g -Xmx3g")

J’ai provisoirement résolu le pb en remettant l’ancien flux, plus léger, mais il me semble que certains arrivent à utiliser l’api avec des fichiers volumineux, comment font-ils?? Qu’est-ce que j’ai raté dans la doc??

En attendant j’ai modifié le format du flux pour essayer avec du turtle demain, ce format me semble un peu plus léger.

Bonjour,

Pouvez-vous nous dire quel format vous utilisiez avant de choisir le turtle ? Il s’avère que le format qui demande le moins de ressource à interpréter lors du chargement dans Blazegraph est le format N-triples (.nt).

Nous vous conseillons également d’augmenter encore la mémoire dédiée à Java pour continuer vos tests : -Xms4g -Xmx4g

Enfin, vous pouvez surveiller ce qu’il se passe du côté Blazegraph en regardant les logs durant le démarrage :

docker-compose logs -f blazegraph

Cordialement

1 « J'aime »