Définition des fonctionnalités de base
Tout d'abord nous proposons de mettre en place une application de suivi de publication des données. Cette application sera le point d'entrée pour la publication des données des institutions membres de l'association.
Chaque organisme publiant des données pourra créer un compte et avoir accès à une interface pour définir les informations nécessaires à la récupération des données de l'institution. Ces informations se limiteront à une URL où récupérer les données et la fréquence de mise à jour des données. De cette manière, l'application de publication pourra récupérer périodiquement les données de l'institution. Chaque récupération sera associée à un rapport de validité, qui contiendra des statistiques basiques sur ce qui a été importé (par exemple nombre d'instances importées par classe), les erreurs de validation de données s'il y en a et la date à laquelle les données ont été collectées. De cette manière, il est possible, pour l'institution, de suivre ce qui a été publié.
L'application de suivi de production devra permettre de spécifier l'ontologie et les règles de validations (SHACL) que doivent respecter les données des différentes institutions. Ces informations devront être définies dans une interface d'administration générale à toute l'application et non pour une institution seulement.
De plus, l'application permetra de tester un jeu de données pour avoir un rapport d'erreurs rapidement afin de savoir si l'export effectué correspond à ce qui est attendu. Une fois les données collectées, l'application de suivi de production des données RDF mettra à jour les données d'un entrepôt SPARQL, unique à toutes les institutions. Il sera alors possible d'interroger l'intégralité des données des différentes institutions sur un seul et même entrepôt et ce en garantissant un maximum d'autonomie.
liste des tâches à réaliser (à spécifier)
- Authentification
- Interface de saisi des informations de récupération des données
- Interface de saisi de l'ontologie et des règles de validation
- Script de récupération périodiques des données
- Validation des données (shape SHACL)
- Génération du rapport d'erreurs et de statistiques
- Service de tests rapide des données
- Déploiement d'un entrepôt SPARQL
- Mise à jour des données