Jeu de données
Les propriétaires de Paris et du département de la Seine – 1898
Version 1 date : 2023-01-11
- Identifiants :
- lil-1578
- doi:10.13144/lil-1578
- Thèmes :
- Données historiques
- Histoire
- Économie
- Couverture géographique :
- Paris
- Producteur :
- EHESS
- Diffuseur :
- Progedo-Adisp
- Résumé
- Détails
- Variables
- Données
- Documentation
- Accès
Pays
| Nom | Abréviation |
|---|---|
| France | FR |
Couverture géographique
- Paris
Unité géographique
Adresse exacte de l'immeuble.
Unité d'analyse
Individu ou adresse
Univers
Les propriétaires de l'immobilier parisien.
Type de données
Données géographiques
Méthodologie
Dimension temporelle
Série temporelle
Date de collecte
2018 - 2023
Mode de collecte
Le jeu de données est le résultat des opérations suivantes : - numérisation de l'Annuaire par le service de la BNF - transcription par le biais de la plateforme Transcribus (le modèle HTR+ a été créé à partir de 169 pages (plus de 72 674 mots et 13 285 lignes)) - annotations manuelles des pages 1167 - 1201 de la lettre P de l'annuaire à l'aide du logiciel PRODIGY - création du modèle d'annotation automatique à partir des annotations manuelles - le modèle est appliqué d'abord à l'ensemble des pages annotées manuellement, puis à l'ensemble des pages "P" de cette même édition, et enfin à l'ensemble de l'édition 1898 - correction des erreurs d'annotation automatique dans TagTog - création du fichier index de rues pour la curation des données - nettoyage des données dans Excel
Caractéristiques de la collecte
Données vérité de terrain résultant de la transcription et la segmentation manuelle d'un échantillon de 169 pages des annuaires appartenant aux volumes 1898 et 1923. Un modèle de transcription HTR+ a été entrainé à partir de cet échantillon grâce à Transkribus et est disponible sur https://nakala.fr/10.34847/nkl.acb724xs#07d6cca85daade869c7a02babf157288b3df1e17. Ce modèle est valable pour transcrire automatiquement les volumes de 1903 et 1913 et tout autre document imprimé à deux colonnes et en utilisant l'alphabet latin et particulièrement en français. Le choix de l'échantillon est fait par critère alphabétique car c'est le mode d'organisation de l'information dans ce document. Le taux de CER (Character Error Rate) est de 0.29%. Les accolades présentes dans le document n'ont pas été segmentées. 118 pages pour entrainer et 51 pages pour validation. Les détails du processus de l'annotation et de la création d'un modèle de reconnaissance d’entités nommées (REN) à l’aide de la librairie Python Spacy (pour lequel nous avons obtenu un f-score de 98.31) sont accessibles dans le notebook https://github.com/fmelanie/fromAnnotationsToModel/blob/main/annotationsToModel.ipynb
Traitements
Nettoyage des données
nettoyage manuel
Notes
Malgré un nettoyage manuel, il est possible qu'il reste encore quelques erreurs, notamment l'inversement des champs ou le numéro d'immeuble incomplet. Nous considérons ces erreurs comme non essentielles et non handicapantes pour l'analyse des données.
