Aller au contenu

Jeux de données

Configuration

Date de dernière modification

On peut configurer la façon dont sera renseignée la date de dernière modification des données avec l’objet last_modified_date.

clé description valeurs possibles
source La source à prendre en compte pour renseigner le champ last_modified filename file zip grist http_header download
params Un objet dépendant de la source

Comportement par défaut

Si on ne précise pas une source explicite, insitu va utiliser la première valeur disponible parmi la liste suivante (par ordre de priorité décroissante) :

  • filename
  • file
  • zip
  • grist
  • http_header

filename

Utiliser la date présente dans le nom du fichier (par exemple donnees-06-2024.csv).

Pour cela, le nom de fichier attendu (champ expected.name) devra être une expression régulière et comporter un groupe nommé qui capture la portion à interpréter comme une date (par exemple donnees-(?P<modified>\d{2}-\d{4}).csv).

Le nom par défaut pour ce groupe est modified, mais un autre nom peut être choisi via le champ last_modified_date.params.group de la définition.

file

Utiliser la date de dernière modification enregistrée dans les métadonnées du fichier (seulement pour les fichiers au format .xlsx ou .dbf).

zip

Utiliser la date de modification associée au fichier dans les métadonnées de l’archive zip (dans le cas où le fichier importé est extrait d’une archive zip).

grist

Utiliser la date de dernière modification du document renvoyée par l’API de Grist.

Dans le cas d’un tableau Grist, la date de dernière modification du document n’est pas exposée via un en-tête HTTP lorsqu’on télécharge les données au format CSV, mais on peut la récupérer via l’API.

http_header

Utiliser la date de modification renvoyée par le serveur lors du téléchargement.

Certains sites comme data.gouv.fr positionnent l’en-tête HTTP Last-Modified avec la date à laquelle le fichier a été mis à jour lorsqu’ils transmettent un jeu de données.

Par défaut, on utilisera donc l’en-tête Last-Modified, mais on peut en utiliser un autre en renseignant le champ last_modified_date.params.header.

download

Utiliser la date du téléchargement.

Cette option est utile lorsque l’on récupère des données fraîches directement à la source (par exemple via une API). Dans ce cas, on souhaite considérer les données comme étant à jour au moment de leur téléchargement.