Documentation des données
Cette page documente en détail le jeu de données exposé par l'Observatoire : son concept, ses sources, ses calculs et ses limites. Elle est destinée aux journalistes, chercheurs et développeurs qui souhaitent réutiliser ou citer nos données.
1. Concept et mission
L'Observatoire des Artisans Numériques est une initiative éditoriale indépendante qui chiffre et cartographie les artisans français face à la réforme de la facture électronique obligatoire au 1er septembre 2026. La mesure de préparation par échantillonnage et le benchmark Factur-X seront publiés avec le rapport complet de l'été 2026.
Les données publiées proviennent exclusivement de sources publiques vérifiables. La méthodologie est documentée et reproductible. Le code et les scripts d'ingestion peuvent être audités sur demande.
2. Sources primaires
Base Sirene des entreprises et de leurs établissements
Source principale. Fichier StockEtablissement_utf8.parquet publié par l'INSEE via data.gouv.fr. Contient l'intégralité des établissements français actifs, avec leur activité principale (NAF), état administratif, localisation (code commune) et date de création.
Contours géographiques des départements
GeoJSON des 96 départements de France métropolitaine, contours simplifiés, projection WGS84. Source : projet france-geojson de Grégoire David (OSM/IGN).
Populations départementales
Populations légales INSEE 2022 (en milliers d'habitants) par département. Utilisées pour calculer la densité artisanale.
Référentiel artisanal
La liste des codes NAF relevant de l'artisanat s'appuie sur le décret no 98-247 du 2 avril 1998 et ses mises à jour, ainsi que sur les périmètres publiés annuellement par CMA France dans ses « Chiffres clés de l'artisanat ».
3. Périmètre de comptage
Un artisan = un établissement qui satisfait les trois critères suivants :
etablissementSiege = TRUE— uniquement les sièges, pour éviter de double-compter les entreprises multi-établissementsetatAdministratifEtablissement = 'A'— uniquement les établissements en activité (non cessés, non fermés)activitePrincipaleEtablissement ∈ liste NAF artisanaux— code NAF faisant partie du périmètre artisanal
Les DOM-TOM sont exclus (codes commune commençant par 97 ou 98). La cartographie couvre la France métropolitaine (96 départements, Corse comprise).
Les codes NAF retenus couvrent 5 catégories : Bâtiment & travaux publics, Réparation & maintenance, Soins & services à la personne, Alimentation artisanale, Fabrication artisanale. La liste exhaustive des codes utilisés est disponible dans le script d'ingestion du projet.
4. Calculs et formules
Tous les calculs sont effectués par DuckDB en lecture directe du fichier parquet. Temps d'exécution total : moins d'une seconde pour les ~30 millions de lignes.
Nombre d'artisans par département
Agrégation directe du comptage par département.
SELECT dep, COUNT(*) AS artisans FROM 'StockEtablissement_utf8.parquet' WHERE etablissementSiege = TRUE AND etatAdministratifEtablissement = 'A' AND activitePrincipaleEtablissement IN (...) GROUP BY dep
Densité artisanale (‰)
Nombre d'artisans pour 1 000 habitants. Affichée dans l'UI sous la forme « 1 artisan pour N habitants » pour plus de lisibilité.
densite = artisans × 1000 / population 1_pour_N = round(1000 / densite)
Ancienneté médiane
Âge médian des entreprises artisanales du département (en années depuis la date de création enregistrée dans Sirene).
anciennete = (CURRENT_DATE - dateCreationEtablissement) / 365.25 MEDIAN(anciennete) GROUP BY dep
Parts < 5 ans et > 20 ans
Proportions d'entreprises récentes ou anciennes dans chaque département.
part_moins_5_ans = AVG(CASE WHEN anciennete < 5 THEN 1 ELSE 0) × 100 part_plus_20_ans = AVG(CASE WHEN anciennete >= 20 THEN 1 ELSE 0) × 100
Répartition par catégorie (breakdown)
Part de chaque catégorie de métier dans le total des artisans du département. La somme des 5 catégories = 100 %.
breakdown[cat] = count_cat × 100 / total_dep
5. Schéma des champs exposés
Chaque département est décrit par les champs suivants dans le JSON artisans-france.json :
| Champ | Type | Description |
|---|---|---|
| code | string | Code département INSEE (ex. "75", "2A") |
| nom | string | Nom officiel du département |
| population | integer | Population légale INSEE 2022 |
| artisans | integer | Nombre total d'entreprises artisanales du département |
| densite_pour_1000 | number | Densité — artisans pour 1 000 habitants (‰) |
| breakdown | object | Parts en % des 5 catégories de métier (somme = 100) |
| anciennete_mediane | number | Ancienneté médiane des entreprises du département (années) |
| part_plus_20_ans | number | Part (%) d'entreprises créées il y a plus de 20 ans |
| part_moins_5_ans | number | Part (%) d'entreprises créées il y a moins de 5 ans |
| part_sans_salarie | number | Part (%) d'établissements sans aucun salarié (NN ou 00) — proxy des micro-entrepreneurs solos |
6. Fréquence de mise à jour
La base Sirene est mise à jour mensuellement par l'INSEE. L'Observatoire régénère le jeu de données affiché à chaque mise à jour majeure :
- Mensuelle — réalignement sur les nouveaux stocks Sirene
- Trimestrielle — publication d'une note d'évolution (évolutions notables par département)
- Été 2026 — publication du rapport complet intégrant le benchmark des générateurs Factur-X et le score de préparation par échantillonnage
7. Licence et réutilisation
Les données de l'Observatoire sont publiées sous licence ouverte. Les données sources (Sirene, IGN) sont publiées par l'État sous licence Licence Ouverte 2.0 (Etalab) .
La réutilisation, la redistribution et la citation sont encouragées, avec attribution simple.
Observatoire des Artisans Numériques, « Cartographie des artisans français », données INSEE Sirene traitées, consulté le [date], observatoire-artisans-numeriques.fr
8. Limitations
- Définition de « artisan » — La définition retenue (établissement siège actif dans un NAF artisanal) correspond à la convention CMA France (~1,8 M d'entreprises artisanales). Le chiffre parfois évoqué de 3,5 millions renvoie à un périmètre plus large incluant les auto-entrepreneurs en activité artisanale, les salariés et les apprentis.
- Dormance — La base Sirene inclut des établissements « actifs » administrativement mais potentiellement dormants (peu ou pas de chiffre d'affaires). La réalité économique peut différer du comptage administratif.
- Ancienneté — L'ancienneté médiane est biaisée vers le bas par l'explosion des micro-entrepreneurs de moins de 5 ans. Le signal utile est l'écart entre départements, pas la valeur absolue.
- DOM-TOM non couverts — La cartographie porte sur la France métropolitaine uniquement (96 départements).
9. Historique des versions
Journal de bord des mises à jour de données et des évolutions méthodologiques de l'Observatoire.
- 2026-04-22V1 — Lancement de la cartographie
Publication initiale : 96 départements de France métropolitaine, 1,76 M d'entreprises artisanales, 4 métriques cartographiables (volume, densité, % sans salarié, % >20 ans), fiches département détaillées. Source Sirene INSEE stock au 1ᵉʳ avril 2026.
- Été 2026V2 — Benchmark Factur-X et score de préparation
Publication prévue du rapport complet avec le benchmark indépendant des générateurs Factur-X du marché (14 critères de conformité) et le score de préparation mesuré par échantillonnage départemental.
10. Contact et contribution
Signalements d'erreurs, suggestions d'amélioration, demandes de données spécifiques ou proposition de collaboration académique :
[email protected]