KAIROSIUM — Infrastructure d'agents IA pour entreprises exigeantes

Métriques

Trois engagements mesurés contradictoirement

Chaque cible est collectée via l'instrumentation GCP. Aucune assertion sans méthode de collecte documentée.

≥ 85 %

Accuracy agents

Cible : ≥ 85 % sur golden set ≥ 200 cas.
Collecte : pytest compare expected_score vs score produit sur golden_set.csv — accuracy = % concordance labels. Résultats importés dans BigQuery table test_runs via scripts/import_test_results.py.
Condition d'entrée : golden set ≥ 200 cas validé contradictoirement avant déploiement T2 — en deçà, le seuil de 85 % n'est pas défendable en comité budgétaire.

europe-west1

Souveraineté des données

Cible : 100 % des données de production dans GCP région Europe.
Collecte : CMEK activé sur BigQuery et Cloud Storage via Cloud KMS, clés en région europe-west1. Vertex AI en europe-west4. VPC Service Controls perimeter — aucun appel LLM ne sort du VPC client.
Audit trail : Cloud Logging + BigQuery compliance_checks(requirement_id, status BOOL, evidence_url).

≥ 80 %

Autonomie L1/L2 équipe interne

Cible : ≥ 80 % d'incidents L1/L2 résolus sans escalade vendor à M+12, fenêtre glissante 30 jours.
Collecte : Cloud Logging — tag resolver_type (enum : internal / vendor / mixed) ; BigQuery table incident_resolution(month, resolver_type, count) ; alerte Cloud Monitoring si ratio < seuil sur 14 jours glissants.
Condition de rétention T3 : la rétention de 10 % est libérée à ce seuil — pas à la livraison du code.

Positionnement

Ce que nous sommes — et ce que nous ne sommes pas

Verdict documenté, pas un pitch. Chaque ligne est un fait technique ou commercial vérifiable.

✓ Nous sommes

Boutique d'ingénierie spécialisée IA agentique — pas un intégrateur cloud généraliste
Architecte & ingénieur qui livrent des agents en production sur périmètre maîtrisé
Prestataire avec clause de résultat mesurée contradictoirement — KPIs cosignés
Partenaire qui transfère la compétence — autonomie L1/L2 ≥ 80 % mesurée
Interlocuteur technique de niveau architecte senior — ADRs, exclusions documentées
Agnostique LLM — model_id paramètre Firestore, pas une constante dans le code
Opérateur souveraineté des données — GCP Europe, CMEK, VPC Service Controls

✗ Nous ne sommes pas

Intégrateur cloud généraliste multi-stack
Agence de conseil stratégique IA — chaque livrable est technique, chiffré et lié à une implémentation concrète, pas une roadmap stratégique déconnectée de l'exécution
Vendeur de licences logicielles
Prestataire qui livre du code et disparaît
Cabinet de transformation digitale — nous mesurons, nous ne promettons pas
Fournisseur lié à un modèle ou un éditeur unique
Tiers accédant aux données hors périmètre client

Grille de Services

Trois tiers. Trois acheteurs. Zéro ambiguïté sur le périmètre.

Forfaits affichés. TJM de référence explicite. Conditions d'entrée formulées comme faits techniques, pas clauses de style.

Tier 1

Audit d'Architecture Agentique

9 500 € – 15 000 €

TJM réf. 1 000 € – 2 000 € / jour · 2 semaines

2 semaines +15–20 % si haut risque AI Act

Acheteur unique

Directeur Technique (CTO)
PME / scale-up 50–500 ETP.
Souvent fondateur technique.

Objectif métier

Réduire l'incertitude architecturale avant d'engager du budget R&D.
Décision go/no-go documentée CTO à J+30.

Livrables

Rapport d'état de la stack IA existante + cartographie des gaps
Recommandations priorisées + roadmap avec estimation des coûts
Checklist EU AI ActBigQuery table compliance_checks(requirement_id, status BOOL, evidence_url)

KPIs

Score conformité EU AI Act : 100 % exigences High-Risk validéesBigQuery compliance_checks + Looker Studio
Précision ROI projeté : écart < 20 % à M+6|ROI_réel − ROI_projeté| / ROI_projeté · BigQuery roi_tracking, scheduled query M+3/M+6
Décision architecturale CTO : go ou no-go signé à J+30Document horodaté Cloud Storage

Jalons paiement :

50 % à la signature
50 % à la livraison du rapport

Délai de réserve : 5 jours ouvrés. À défaut, validation réputée acquise.

Tier 2

Agent de Production

30 000 € – 100 000 €

TJM réf. 1 000 € – 2 000 € / jour · 6–10 semaines

6 – 10 semaines +15–20 % si haut risque AI Act

Acheteur unique

COO / Directeur Métier
(Supply, Finance, CS selon verticale).
Benchmark sectoriel chiffré inclus dans le bon de commande. Sans référence verticale, le cycle de vente double.

Objectif métier

1 agent IA en production sur GCP.
Opérationnel, documenté, observabilité native.
ROI chiffré défendable en comité budgétaire.

Livrables techniques

Agent déployé sur Cloud Run via Google ADKVertex AI Agent Engine
Observabilité : BigQuery Agent AnalyticsTable agent_events(trace_id, agent_name, tool_name, timestamp, latency_ms, success_flag, token_count)
Tests CI : pytest golden set ≥ 200 caspytest JUnit XML → export manuel vers BigQuery test_runs via scripts/import_test_results.py (pipeline Cloud Build prévu)
Baseline Accuracy cosignée à M+0(Condition d'entrée contractuelle)

KPIs

Accuracy ≥ 85 % : pytest compare expected_score vs score produit sur golden_set.csv — accuracy = % concordance labels. Résultats importés dans BigQuery table test_runs via scripts/import_test_results.py.Note : success_flag BOOL dans agent_events mesure la fiabilité des tool calls ADK (succès/échec d'un appel individuel) — métrique distincte de l'accuracy métier, non utilisée pour ce KPI.
Latence p95 ≤ 3 s (×1) / ≤ 8 s (N>2) : APPROX_QUANTILES(latency_ms, 100)[OFFSET(95)]Scheduled query horaire · alerte Cloud Monitoring
CI/CD ≥ 95 % pass rate : pytest JUnit XML → export manuel vers BigQuery test_runs via scripts/import_test_results.py (pipeline Cloud Build prévu)Fenêtre glissante 7 jours

Jalons paiement :

30 % signature
40 % agent staging + golden set validé
30 % mise en production + KPIs cosignés

Extension T2→T3 :

Si le pilote dépasse 10 semaines, implique plus de 3 systèmes tiers, plus de 2 agents autonomes, ou un volume de données traité supérieur à 50 Go :

Constat conjoint par écrit dans les 5 jours ouvrés suivant le dépassement. Accord T3 signé dans les 10 jours ouvrés suivants.

Tier 3

Infrastructure Agentique Complète

150 000 € – 500 000 €

TJM réf. 1 000 € – 2 000 € / jour · 3–6 mois

3 – 6 mois +15–20 % si haut risque AI Act Co-signature DG/DAF > 200 k€

Acheteur unique

DSI (CIO) — grand compte.
Co-signature DG ou DAF obligatoire au-delà de 200 k€.

La DAF exige un business case ROI sur 18 mois minimum. Sans cet outillage, le dossier meurt en comité budgétaire.

Objectif métier

Souveraineté sur l'infrastructure.
Conformité AI Act / RGPD / NIS2.
Transfert de compétence : autonomie opérationnelle L1/L2 ≥ 80 % à M+12.

Livrables techniques

Architecture multi-agents : ADK · Vertex AI Agent Engine · BigQuery · Firestore · Cloud Run · Firebase Hosting
Sélection vectorielle documentée ADRBQ Vector Search ou Vertex AI Vector Search selon volume/latence
CMEK BigQuery + Cloud Storage · VPC Service ControlsKMS europe-west1
Observabilité : BigQuery Agent Analytics + Cloud Logging/Monitoring + Looker Studio
Documentation : ADRs cosignés pour chaque décision d'architecture
Formation équipe interne : protocoles L1/L2, runbooks, procédures d'escalade

KPIs

−20 % TCO à M+36 vs M+0 : Cloud Billing export + external_costs + tco_snapshotScheduled query trimestrielle
Autonomie L1/L2 ≥ 80 % à M+12 : Cloud Logging resolver_typeBigQuery incident_resolution
Zéro vendor lock critique à M+18 : BigQuery component_catalog(vendor_lock, alternative_documented) · Revue trimestrielle

Jalons paiement :

20 % signature
25 % ADRs cosignés + 1er agent prod
25 % pipeline data + observabilité opérationnelle
20 % formation complétée
10 % rétention — libérée à autonomie L1/L2 ≥ 80 %
Pas à la livraison du code.

Surcoût EU AI Act — +15 à 20 % sur le forfait de base (justifié ligne à ligne)

Applicable pour tout système classé haut risque au sens de l'Annexe III de l'AI Act (deadline août 2026). Cas d'usage concernés : recrutement et sélection algorithmique, détection d'anomalies financières, maintenance d'infrastructures critiques.

Logs de traçabilité des décisions — ADK traces + BigQuery audit trail
Tests de biais récurrents sur golden set à chaque déploiement
Documentation technique d'audit — artefacts CNIL / autorité de supervision
Revue juridique de conformité sur périmètre haut risque

Jalons de Paiement

Structure financière par tier — sans zone grise

Chaque jalon est déclenché par un fait technique vérifiable, pas par une décision unilatérale.

T1 — Audit · 9 500 € – 15 000 €

50 %

Acompte

Signature du bon de commande

50 %

Solde

Livraison du rapport validé par le client

5 jours ouvrés pour formuler des réserves motivées par écrit. À défaut : validation réputée acquise, solde exigible.

T2 — Agent de Production · 30 000 € – 100 000 €

30 %

Acompte

Signature du bon de commande

40 %

Jalon 1

Agent déployé en staging + golden set (≥ 200 cas) validé contradictoirement

30 %

Solde

Mise en production + KPIs avant/après livrés et cosignés

Validation Jalon 1 : 5 jours ouvrés pour réserves motivées. À défaut : validation réputée acquise.

T3 — Infrastructure Complète · 150 000 € – 500 000 €

20 %

Acompte

Signature du bon de commande

25 %

Jalon 1

Architecture validée (ADRs cosignés) + premier agent en production

25 %

Jalon 2

Pipeline data + observabilité opérationnels — dashboards Looker Studio actifs, alertes Cloud Monitoring configurées

20 %

Jalon 3

Formation équipe interne complétée — sessions cosignées, documentation remise

10 %

Rétention

Autonomie L1/L2 ≥ 80 % mesurée sur fenêtre glissante 30 jours — libérée au seuil, pas à la livraison du code. Clause de substitution : si le déploiement production n'est pas effectif avant M+6 pour des raisons imputables au client, libération à M+18 sur présentation du rapport de formation cosigné.

Clause d'extension T2 → T3

Si au cours du pilote T2 : durée > 10 semaines, intégration > 3 systèmes tiers, déploiement > 2 agents autonomes, ou volume de données traité > 50 Go — constat conjoint par écrit dans les 5 jours ouvrés suivant le dépassement. Accord T3 signé dans les 10 jours ouvrés suivants. À titre indicatif, fourchette Phase 3 : TJM 1 500 € appliqué à 100–200 jours, soit 150 000 € à 300 000 € selon périmètre final.

Stack Technologique

Chaque composant a un rôle unique et non chevauchant

Les verdicts d'exclusion sont définitifs et documentés par ADR. Aucun ajout sans critère de succès chiffré.

Plateforme Cloud

Google Cloud Platform (GCP)

Infrastructure exclusive. Toutes les données restent en région Europe. VPC Service Controls perimeter.

Intelligence & Orchestration

Google Agent Development Kit (ADK)

Framework de construction d'agents. Graphes d'états, boucles, handoffs, parallélisme. Source unique d'orchestration.

Vertex AI — Agent Engine

Hosting managé des agents en production. Sessions persistantes, mémoire cross-deploy, scaling automatique.

Vertex AI — Model Garden

Accès unifié aux LLM (Gemini, Claude, Mistral, Llama). model_id : paramètre de configuration Firestore — pas une constante dans le code. Commutation sans réécriture de l'agent.

MCP — Model Context Protocol

Protocole d'intégration agents ↔ sources de données et outils externes.

Python 3.12+

Langage d'implémentation exclusif. Gestion des dépendances via uv.

Data & Persistance

BigQuery

Entrepôt analytique. Logs d'agents, événements, métriques, données métier. Cloud Billing export.

BigQuery Vector Search

Recherche vectorielle RAG intégrée à l'entrepôt analytique. Sélectionné si volume ≤ 10 M vecteurs ET latence p95 ≥ 50 ms acceptable. Valeur par défaut si aucun critère Vertex AI Vector Search n'est déclenché.

Vertex AI Vector Search

Index vectoriels managés haute performance. Sélectionné si volume > 10 M vecteurs OU latence p95 < 50 ms requise — obligatoire dans les deux cas.

Firestore

État opérationnel des agents. Synchronisation temps réel entre sessions. Stockage des paramètres de configuration (dont model_id).

Cloud Storage

Artefacts, documents, fichiers volumineux. CMEK activé, clés KMS en europe-west1.

Observabilité & Gouvernance

BigQuery Agent Analytics

Plugin natif ADK. Traces complètes : appels d'outils, requêtes LLM, latences, success_flag. Activé à l'initialisation de chaque agent — aucune exception.

Cloud Logging / Cloud Monitoring

Logs et alertes infrastructure. Sink vers BigQuery pour agrégation analytique.

Looker Studio

Dashboards connectés directement à BigQuery. Performances, coûts, latences, RAG status jalons.

Frontend & Déploiement

Firebase Hosting

CDN pour interfaces web statiques. SSL automatique, intégration native GCP.

Cloud Run

Déploiement serverless des API agents exposées aux clients.

Sécurité & Souveraineté

Cloud KMS — CMEK

Customer-Managed Encryption Keys activé sur BigQuery et Cloud Storage. Clés en région europe-west1. Vertex AI en europe-west4.

VPC Service Controls

Perimeter réseau. Aucun appel LLM ne sort du VPC client.

Tests CI : pytest golden set ≥ 200 cas

pytest JUnit XML → export manuel vers BigQuery test_runs via scripts/import_test_results.py (pipeline Cloud Build prévu)

Règle ADR — Sélection vectorielle (BigQuery Vector Search vs Vertex AI Vector Search)

BigQuery Vector Search — sélectionné si :

Volume ≤ 10 M vecteurs
Latence p95 ≥ 50 ms acceptable
Données vectorielles déjà dans BQ
Budget infrastructure contraint

Valeur par défaut si aucun critère Vertex AI n'est déclenché — moins de services à opérer.

Vertex AI Vector Search — sélectionné si :

Volume > 10 M vecteurs (obligatoire)
Latence p95 < 50 ms requise (obligatoire)

Index vectoriels managés haute performance. Surcoût index managé documenté dans l'ADR de chaque déploiement.

Cas d'étude

Détection d'anomalies financières

Une PME SaaS de 80 employés mobilisait 2 ETP par semaine pour la revue manuelle des flux de paiement. Sur 6 mois, 3 fraudes avérées avaient échappé à la détection. Le pipeline déployé coordonne 3 agents ADK (Orchestrateur, Ingestion Agent, Scoring Agent) et 250 transactions traitées sur golden set versionné (data/golden_set.csv), avec un rapport d'audit écrit dans BigQuery à chaque exécution.

Pilote de démonstration — périmètre délibérément réduit

Ce case study est un pilote fictif (client NovaPay) conçu pour démontrer les capacités du framework Google ADK en conditions réelles. Il ne déploie pas l'intégralité du stack Kairosium — les composants exclus sont documentés ci-dessous avec leur justification.

KPIs mesurés — golden set 250 transactions

Métrique	Cible contractuelle (T2)	Valeur mesurée	Statut
Accuracy globale	≥ 85 %	92 %	✓ validé
Precision ALERTE	—	100 % — 0 fausse alarme	✓ validé
Recall ALERTE	—	100 % — 23/23 alertes détectées	✓ validé
Latence p95 end-to-end	≤ 3 000 ms par tool	455 ms production / 637 ms dev (BigQuery `agent_events`)	✓ validé
CI pass rate	≥ 95 %	100 % — 16/16 pytest PASSED en 1.96s	✓ validé
Transactions SUSPECT non détectées	—	8/30 reclassées NORMAL	gap documenté

92 % d'accuracy sur le golden set — 8 transactions SUSPECT sur 30 non détectées, documentées dans les ADRs du repo. La classe ALERTE (fraudes avérées) atteint 100 % de précision et de rappel : zéro fausse alarme, zéro fraude manquée.

⚠️ Système classé haut risque Annexe III AI Act — surcoût conformité +15–20 % applicable

Exclusions de ce pilote — pourquoi elles n'ont pas été mises en œuvre

Composant	Statut dans ce pilote	Justification
Cloud Run	Exclu (ADR-007)	Vertex AI Agent Engine utilisé à la place pour ce pilote — Cloud Run pertinent pour exposer des APIs agents en T2/T3 client
Firestore (model_id config)	Exclu (ADR-006)	`model_id` hardcodé Gemini 2.5 Flash — paramètre Firestore applicable en production client multi-modèle
MCP (Model Context Protocol)	Exclu (ADR-008)	Aucune source de données externe à connecter dans ce périmètre fictif
Cloud Build CI	Différé (ADR-005)	Tests exécutés via `make test` en local — pipeline Cloud Build prévu en T2/T3 client
CMEK / VPC Service Controls	Non déployés	Pilote fictif sans données client réelles — obligatoires en déploiement production
Looker Studio	Non implémenté	Dashboard analytique prévu en T2/T3 — hors périmètre de ce pilote

Architecture — pipeline multi-agents ADK

%%{init:{"theme":"base","themeVariables":{"background":"#111318","primaryColor":"#1a1e2a","primaryBorderColor":"#3b82f6","primaryTextColor":"#e8eaf0","secondaryColor":"#151820","lineColor":"#3b82f6","textColor":"#9aa3b2","clusterBkg":"#0c0f14","clusterBorder":"rgba(59,130,246,0.3)","edgeLabelBackground":"#0f1115","fontFamily":"JetBrains Mono,monospace","fontSize":"11px"}}}%%
flowchart LR
    CS[("Cloud Storage\nCSV transactions")]
    FS[("Firestore / JSON\nmodel_id · config")]

    subgraph VERTEX ["Vertex AI Agent Engine · europe-west1"]
        ORCH(["orchestrator\nGemini 2.5 Flash"])
        IA(["ingestion_agent\ningest_transactions\n→ temp:transactions"])
        SA(["scoring_agent\nscore_all_transactions\n5 règles déterministes\n→ temp:scored_transactions"])
        GAR["generate_audit_report"]
        TA["trigger_alert\n× N transactions ALERTE"]
    end

    BQ1[("BigQuery\naudit_reports")]
    BQ2[("BigQuery\nagent_events")]
    CM["Cloud Monitoring\nagent/anomaly_alert"]
    SL["Slack\n#anomaly-alerts"]

    CS -->|gcs_path| ORCH
    FS -->|model_id / supplier_registry| ORCH
    ORCH -- "① transfer_to_agent" --> IA
    IA -- "② transfer_to_agent" --> SA
    SA -- "③ transfer_to_agent" --> ORCH
    ORCH --> GAR
    GAR --> BQ1
    GAR -->|alert_transactions| TA
    TA --> CM
    TA --> SL
    ORCH -->|Agent Analytics Plugin| BQ2

Stack technique — Tier 2

Vertex AI Agent Engine — europe-west1 (exécution managée)
Google ADK 1.28.1 — handoffs, session state, before_model_callback
Gemini 2.5 Flash via Vertex AI — migration depuis 2.0 Flash (arrêt 1er juin 2026)
BigQuery Agent Analytics Plugin — table agent_events (~86 événements par run complet, mesuré sur runs golden set 250 tx)
Cloud Monitoring — métrique custom agent/anomaly_alert + 3 politiques d'alerte
Slack webhook HTTP — canal #anomaly-alerts (tool trigger_alert natif)
pytest 16/16 — golden set 250 transactions, export JUnit XML conditionnel
BigQuery — audit_reports (rapport d'audit écrit à chaque run)
Golden set ≥ 200 cas — validation contradictoire

Preuves en production

**ADK trace**Pipeline ADK : trace complète des tool calls

Rapport d'audit : 250 tx, 23 ALERTE — **Rapport d'audit**250 tx, 23 ALERTE

BigQuery audit_reports — **BigQuery**audit_reports

BigQuery agent_events — ~86 événements par run (golden set 250 tx) — **BigQuery**agent_events — ~86 événements par run (golden set 250 tx)

Vertex AI Agent Engine — europe-west1 — **Vertex AI**Agent Engine — europe-west1

Cloud Monitoring — 23 points anomaly_alert — **Monitoring**23 points anomaly_alert

**Monitoring**3 politiques d'alerte actives

Notifications Slack #anomaly-alerts — **Slack**#anomaly-alerts

CI : 16/16 pytest PASSED — CI16/16 pytest PASSED

Clique pour ouvrir en plein écran · ESC pour fermer.

Conformité EU AI Act — Surcoût +15–20 %

La détection d'anomalies dans des flux financiers est classée système à haut risque au sens de l'Annexe III de l'AI Act. Le surcoût de 15–20 % appliqué sur le forfait de base couvre :

▸ Logs de traçabilité des décisions (ADK traces + BigQuery audit trail)
▸ Tests de biais récurrents sur golden set
▸ Documentation technique d'audit (artefacts CNIL/autorité de supervision)
▸ Revue juridique de conformité

Voir le code sur GitHub

Conditions Commerciales

Conditions d'entrée — faits techniques, pas clauses de style

Chaque condition d'entrée protège l'intégrité des KPIs. Sans baseline contradictoire, aucune mesure de progression n'est défendable.

T2 — Obligatoire

Baseline Accuracy sur golden set

Golden set ≥ 200 cas représentatifs validé contradictoirement avant déploiement. Baseline Accuracy cosignée à M+0.

Sans cette baseline : le Jalon 1 n'est pas déclenché. Tout litige sur le KPI de 85 % "avant/après" est impossible à trancher — condition bloquante.

T3 — Obligatoire

Snapshot TCO signé à M+0

TCO initial cosigné avant démarrage : coûts GCP (Billing export) + licences vendor + headcount dédié ETP × coût journalier + maintenance curative.

Sans ce snapshot : le KPI de réduction TCO −20 % à M+36 est invérifiable. Clause de résultat caduque — condition bloquante.

T3 — Rétention 10 %

Libération à l'autonomie L1/L2 ≥ 80 %

La rétention de 10 % est libérée quand l'équipe interne atteint ≥ 80 % de résolution autonome L1/L2, mesurée sur fenêtre glissante 30 jours via BigQuery incident_resolution.

Clause de substitution : si le déploiement production n'est pas effectif avant M+6 pour des raisons imputables au client, libération à M+18 sur présentation du rapport de formation cosigné.

T3 — Accès systèmes

Accès aux systèmes sources garanti à J+5

APIs, bases de données, SCADA selon verticale — accès garanti par le client dans les 5 jours suivant la signature.

Sans cet accès : le planning est décalé d'autant, sans pénalité prestataire. Tout retard imputable au client est constaté par écrit.

Agnosticisme LLM — principe d'implémentation

# model_id est un paramètre de configuration Firestore — pas une constante dans le code
# Passer de gemini-2.0-flash à claude-opus-4 :
# → aucune modification du code agent
# → une mise à jour du document de config Firestore

model_id = firestore_config.get("model_id")  # ex: "gemini-2.0-flash" ou "claude-opus-4"
agent    = Agent(
  model     = model_garden.get_model(model_id),
  analytics = BigQueryAnalytics(dataset_id="agent_prod"),  # activé à l'initialisation
)
      

Infrastructure d'agents IA — performance mesurable, souveraineté garantie.

Trois engagements mesurés contradictoirement

Ce que nous sommes — et ce que nous ne sommes pas

Trois tiers. Trois acheteurs. Zéro ambiguïté sur le périmètre.

Structure financière par tier — sans zone grise

Chaque composant a un rôle unique et non chevauchant

Détection d'anomalies financières

Conditions d'entrée — faits techniques, pas clauses de style

Infrastructure d'agents IA —
performance mesurable,
souveraineté garantie.