Centre National de le Recherche Scientifique Quetelet-Progedo
project icon

Jeu de données

Les propriétaires de Paris et du département de la Seine – 1898

Version 1 date : 2023-01-11

  • Identifiants :
    • lil-1578
    • doi:10.13144/lil-1578
  • Thèmes :
    • Données historiques
    • Histoire
    • Économie
  • Couverture géographique :
    • Paris
  • Producteur :
    • EHESS
  • Diffuseur :
    • Progedo-Adisp

Pays

NomAbréviation
France FR

Couverture géographique

  • Paris

Unité géographique

Adresse exacte de l'immeuble.

Unité d'analyse

Individu ou adresse

Univers

Les propriétaires de l'immobilier parisien.

Type de données

Données géographiques

Méthodologie

Dimension temporelle

Série temporelle

Date de collecte

2018 - 2023

Mode de collecte

Le jeu de données est le résultat des opérations suivantes : - numérisation de l'Annuaire par le service de la BNF - transcription par le biais de la plateforme Transcribus (le modèle HTR+ a été créé à partir de 169 pages (plus de 72 674 mots et 13 285 lignes)) - annotations manuelles des pages 1167 - 1201 de la lettre P de l'annuaire à l'aide du logiciel PRODIGY - création du modèle d'annotation automatique à partir des annotations manuelles - le modèle est appliqué d'abord à l'ensemble des pages annotées manuellement, puis à l'ensemble des pages "P" de cette même édition, et enfin à l'ensemble de l'édition 1898 - correction des erreurs d'annotation automatique dans TagTog - création du fichier index de rues pour la curation des données - nettoyage des données dans Excel

Caractéristiques de la collecte

Données vérité de terrain résultant de la transcription et la segmentation manuelle d'un échantillon de 169 pages des annuaires appartenant aux volumes 1898 et 1923. Un modèle de transcription HTR+ a été entrainé à partir de cet échantillon grâce à Transkribus et est disponible sur https://nakala.fr/10.34847/nkl.acb724xs#07d6cca85daade869c7a02babf157288b3df1e17. Ce modèle est valable pour transcrire automatiquement les volumes de 1903 et 1913 et tout autre document imprimé à deux colonnes et en utilisant l'alphabet latin et particulièrement en français. Le choix de l'échantillon est fait par critère alphabétique car c'est le mode d'organisation de l'information dans ce document. Le taux de CER (Character Error Rate) est de 0.29%. Les accolades présentes dans le document n'ont pas été segmentées. 118 pages pour entrainer et 51 pages pour validation. Les détails du processus de l'annotation et de la création d'un modèle de reconnaissance d’entités nommées (REN) à l’aide de la librairie Python Spacy (pour lequel nous avons obtenu un f-score de 98.31) sont accessibles dans le notebook https://github.com/fmelanie/fromAnnotationsToModel/blob/main/annotationsToModel.ipynb

Traitements

Nettoyage des données

nettoyage manuel

Notes

Malgré un nettoyage manuel, il est possible qu'il reste encore quelques erreurs, notamment l'inversement des champs ou le numéro d'immeuble incomplet. Nous considérons ces erreurs comme non essentielles et non handicapantes pour l'analyse des données.