Clavier d'ordinateur avec une paire de lunettes

EDC N°5 – Mettre en avant un profil comportemental à partir des données d’ouverture d’e-mails.

Contexte

Ma boîte gmail reçoit un volume important d’e-mails récurrents. Une partie est utile (transactionnel, suivi, achats). Une autre partie s’accumule et crée du bruit de fond.


J’ai donc construit mymail dna, un outil d’analyse attentionnelle, pour objectiver ce flux entrant et transformer la boîte mail en source de données exploitable (au lieu d’un stock difficile à traiter).

L’analyse présentée ici porte sur un échantillon de 2 527 e-mails, enrichi et catégorisé via un workflow automatisé, puis restitué dans un tableau de bord looker studio et un rapport de synthèse.


L’objectif n’était pas seulement de suivre mes interactions, mais d’identifier mes priorités attentionnelles à partir de signaux observables (volume, lus vs non lus, catégories) et de traduire ces observations en actions concrètes de tri et de réduction du bruit.


Ce projet illustre comment l’automatisation et l’analyse de données peuvent être utilisées pour optimiser la gestion d’une boîte mail, soutenir une démarche de connaissance de soi, et servir des usages marketing ou de veille (segmentation, priorisation, hygiène des flux).

Mission/ Objectif

Objectif principal :

Concevoir une automatisation capable de transformer mes données Gmail en un persona comportemental basé sur des faits observables (types d’e-mails ouverts, mots-clés, domaines, timing, etc.).


Objectifs spécifiques :

  1. Extraire un échantillon d’e-mails et le structurer avec des champs simples et actionnables (expéditeur, catégorie, statut lu ou non lu).

  2. Automatiser le traitement de bout en bout (nettoyage, normalisation, enrichissement, stockage).

  3. Produire des indicateurs lisibles pour décider quoi filtrer, supprimer, conserver et prioriser.

  4. Visualiser les résultats dans un tableau de bord interactif pour faciliter l’interprétation et la prise de décision.Et livrer un rapport clair avec constats et recommandations opérationnelles.

Approche

Démarche expérimentale

J’ai conçu l’outil pour transformer des données en décisions concrètes (quoi filtrer, quoi désinscrire, quoi prioriser), plutôt que de produire des statistiques sans usage.


1️ Cadrage du besoin (Questions à trancher)

  • Réduire le bruit et le stock de non lus.

  • Identifier les catégories qui saturent la boîte mail.

  • Repérer les principales sources du non lu pour agir (désinscription, filtres, archivage).

2️ Modèle de données minimal (Pour itérer vite)

  • Sélection de 3 champs actionnables dès le départ: Expéditeur (from_id), catégorie, statut lu ou non lu (is_read).

  • Objectif: éviter de complexifier avec trop de variables avant d’avoir un premier résultat exploitable.

3️ Chaîne de traitement reproductible (Automatisation)

  • Mise en place d’un flux rejouable dans le temps: extraction → normalisation/enrichissement → stockage tabulaire.

  • Objectif: pouvoir relancer la même analyse après changements (filtres, désinscriptions) et comparer.

  • Calcul du taux d’ouverture par mot-clé, expéditeur et tranche horaire.

4️ Visualisation & interprétation (Orientées actions)

  • Tableau de bord pour rendre visibles les priorités attentionnelles (lus vs non lus, répartition par catégorie, pression du flux).

  • Règle: un indicateur doit déboucher sur une action (désinscrire, filtrer, archiver, prioriser).

Point de vigilance intégré

  • Respect de la vie privée: données anonymisées et stockées localement. L’expéditeur est anonymisé par masquage partiel, ce qui peut regrouper plusieurs expéditeurs sous un même identifiant. les analyses “top expéditeurs” restent donc des ordres de grandeur.

  • Sécurité: utilisation d’outils open-source et auto-hébergés .

Actions clés

Méthode

Extraction et préparation des données

  • Extraction d’un échantillon de 2 527 e-mails.
  • Nettoyage des données et standardisation des formats.
  • Création d’une catégorisation simple : newsletter, publicité, autre, achat, rappel.

Automatisation du workflow (Pipeline)

  • Téléchargement du fichier source (Drive).
  • Extraction des lignes depuis le CSV.
  • Normalisation et enrichissement (catégorie, statut de lecture).
  • Alimentation automatique d’une feuille Google Sheets pour servir de source stable au reporting.

Restitution et livrables

  • Création du tableau de bord Looker Studio (répartition, lus vs non lus, lecture par catégorie, expéditeurs du stock non lu).
  • Rédaction du rapport de synthèse (constats, limites, hypothèses, actions recommandées).
  • Documentation projet (PRD, journal technique, planification).

Résultats obtenus

  • Échantillon analysé : 2 527 e-mails, dont 63 % non lus.
  • Bruit principal : les newsletters (environ 72 % du volume) et la publicité (environ 17 %) alimentent l’essentiel du stock non lu.
  • Signal clair : les e-mails d’achat sont majoritairement lus (environ 92 %), ce qui indique que les messages à enjeu sont déjà traités.
  • Décisions : désinscriptions et filtres sur les flux récurrents, sécurisation de la visibilité des e-mails transactionnels.
  • Note : l’analyse par expéditeur reste indicative, car l’expéditeur est anonymisé.

Livrables

Compétences démontrées

Cadrage opérationnel Définition d’objectifs mesurables Analyse de données Segmentation Reporting Analyse du stock non lu Pilotage de projet Documentation (PRD, journal technique) Traçabilité des choix Sensibilité données Anonymisation Interprétation prudente des expéditeurs