Documentation

Documentation des données

Cette page documente en détail le jeu de données exposé par l'Observatoire : son concept, ses sources, ses calculs et ses limites. Elle est destinée aux journalistes, chercheurs et développeurs qui souhaitent réutiliser ou citer nos données.

1. Concept et mission

L'Observatoire des Artisans Numériques est une initiative éditoriale indépendante qui chiffre et cartographie les artisans français face à la réforme de la facture électronique obligatoire au 1er septembre 2026. La mesure de préparation par échantillonnage et le benchmark Factur-X seront publiés avec le rapport complet de l'été 2026.

Les données publiées proviennent exclusivement de sources publiques vérifiables. La méthodologie est documentée et reproductible. Le code et les scripts d'ingestion peuvent être audités sur demande.

2. Sources primaires

Base Sirene des entreprises et de leurs établissements

Source principale. Fichier StockEtablissement_utf8.parquet publié par l'INSEE via data.gouv.fr. Contient l'intégralité des établissements français actifs, avec leur activité principale (NAF), état administratif, localisation (code commune) et date de création.

data.gouv.fr/datasets/base-sirene

Contours géographiques des départements

GeoJSON des 96 départements de France métropolitaine, contours simplifiés, projection WGS84. Source : projet france-geojson de Grégoire David (OSM/IGN).

Populations départementales

Populations légales INSEE 2022 (en milliers d'habitants) par département. Utilisées pour calculer la densité artisanale.

Référentiel artisanal

La liste des codes NAF relevant de l'artisanat s'appuie sur le décret no 98-247 du 2 avril 1998 et ses mises à jour, ainsi que sur les périmètres publiés annuellement par CMA France dans ses « Chiffres clés de l'artisanat ».

3. Périmètre de comptage

Un artisan = un établissement qui satisfait les trois critères suivants :

  • etablissementSiege = TRUE — uniquement les sièges, pour éviter de double-compter les entreprises multi-établissements
  • etatAdministratifEtablissement = 'A' — uniquement les établissements en activité (non cessés, non fermés)
  • activitePrincipaleEtablissement ∈ liste NAF artisanaux — code NAF faisant partie du périmètre artisanal

Les DOM-TOM sont exclus (codes commune commençant par 97 ou 98). La cartographie couvre la France métropolitaine (96 départements, Corse comprise).

Les codes NAF retenus couvrent 5 catégories : Bâtiment & travaux publics, Réparation & maintenance, Soins & services à la personne, Alimentation artisanale, Fabrication artisanale. La liste exhaustive des codes utilisés est disponible dans le script d'ingestion du projet.

4. Calculs et formules

Tous les calculs sont effectués par DuckDB en lecture directe du fichier parquet. Temps d'exécution total : moins d'une seconde pour les ~30 millions de lignes.

Nombre d'artisans par département

Agrégation directe du comptage par département.

SELECT dep, COUNT(*) AS artisans
FROM 'StockEtablissement_utf8.parquet'
WHERE etablissementSiege = TRUE
  AND etatAdministratifEtablissement = 'A'
  AND activitePrincipaleEtablissement IN (...)
GROUP BY dep

Densité artisanale (‰)

Nombre d'artisans pour 1 000 habitants. Affichée dans l'UI sous la forme « 1 artisan pour N habitants » pour plus de lisibilité.

densite = artisans × 1000 / population
1_pour_N = round(1000 / densite)

Ancienneté médiane

Âge médian des entreprises artisanales du département (en années depuis la date de création enregistrée dans Sirene).

anciennete = (CURRENT_DATE - dateCreationEtablissement) / 365.25
MEDIAN(anciennete) GROUP BY dep

Parts < 5 ans et > 20 ans

Proportions d'entreprises récentes ou anciennes dans chaque département.

part_moins_5_ans = AVG(CASE WHEN anciennete < 5 THEN 1 ELSE 0) × 100
part_plus_20_ans = AVG(CASE WHEN anciennete >= 20 THEN 1 ELSE 0) × 100

Répartition par catégorie (breakdown)

Part de chaque catégorie de métier dans le total des artisans du département. La somme des 5 catégories = 100 %.

breakdown[cat] = count_cat × 100 / total_dep

5. Schéma des champs exposés

Chaque département est décrit par les champs suivants dans le JSON artisans-france.json :

ChampTypeDescription
codestringCode département INSEE (ex. "75", "2A")
nomstringNom officiel du département
populationintegerPopulation légale INSEE 2022
artisansintegerNombre total d'entreprises artisanales du département
densite_pour_1000numberDensité — artisans pour 1 000 habitants (‰)
breakdownobjectParts en % des 5 catégories de métier (somme = 100)
anciennete_medianenumberAncienneté médiane des entreprises du département (années)
part_plus_20_ansnumberPart (%) d'entreprises créées il y a plus de 20 ans
part_moins_5_ansnumberPart (%) d'entreprises créées il y a moins de 5 ans
part_sans_salarienumberPart (%) d'établissements sans aucun salarié (NN ou 00) — proxy des micro-entrepreneurs solos

6. Fréquence de mise à jour

La base Sirene est mise à jour mensuellement par l'INSEE. L'Observatoire régénère le jeu de données affiché à chaque mise à jour majeure :

  • Mensuelle — réalignement sur les nouveaux stocks Sirene
  • Trimestrielle — publication d'une note d'évolution (évolutions notables par département)
  • Été 2026 — publication du rapport complet intégrant le benchmark des générateurs Factur-X et le score de préparation par échantillonnage

7. Licence et réutilisation

Les données de l'Observatoire sont publiées sous licence ouverte. Les données sources (Sirene, IGN) sont publiées par l'État sous licence Licence Ouverte 2.0 (Etalab) .

La réutilisation, la redistribution et la citation sont encouragées, avec attribution simple.

Citation recommandée

Observatoire des Artisans Numériques, « Cartographie des artisans français », données INSEE Sirene traitées, consulté le [date], observatoire-artisans-numeriques.fr

8. Limitations

  • Définition de « artisan » — La définition retenue (établissement siège actif dans un NAF artisanal) correspond à la convention CMA France (~1,8 M d'entreprises artisanales). Le chiffre parfois évoqué de 3,5 millions renvoie à un périmètre plus large incluant les auto-entrepreneurs en activité artisanale, les salariés et les apprentis.
  • Dormance — La base Sirene inclut des établissements « actifs » administrativement mais potentiellement dormants (peu ou pas de chiffre d'affaires). La réalité économique peut différer du comptage administratif.
  • Ancienneté — L'ancienneté médiane est biaisée vers le bas par l'explosion des micro-entrepreneurs de moins de 5 ans. Le signal utile est l'écart entre départements, pas la valeur absolue.
  • DOM-TOM non couverts — La cartographie porte sur la France métropolitaine uniquement (96 départements).

9. Historique des versions

Journal de bord des mises à jour de données et des évolutions méthodologiques de l'Observatoire.

  1. 2026-04-22
    V1 — Lancement de la cartographie

    Publication initiale : 96 départements de France métropolitaine, 1,76 M d'entreprises artisanales, 4 métriques cartographiables (volume, densité, % sans salarié, % >20 ans), fiches département détaillées. Source Sirene INSEE stock au 1ᵉʳ avril 2026.

  2. Été 2026
    V2 — Benchmark Factur-X et score de préparation

    Publication prévue du rapport complet avec le benchmark indépendant des générateurs Factur-X du marché (14 critères de conformité) et le score de préparation mesuré par échantillonnage départemental.

10. Contact et contribution

Signalements d'erreurs, suggestions d'amélioration, demandes de données spécifiques ou proposition de collaboration académique :

[email protected]