Semaine du numérique responsable 2026 - L'IA Générative Locale : Souveraineté, Durabilité et Efficacité

Semaine du numérique responsable du 23 au 30 mai 2026 - Portée par Insertech

Présentation dans le cadre de la Semaine du numérique responsable du 23 au 30 mai 2026 - Portée par Insertech.

Par François Pelletier

The Aula Fellowship

✨ Objectif de la présentation

Comprendre les enjeux énergétiques, économiques et éthiques du déploiement de l’IA générative (LLM), en comparant les modèles cloud, API et locaux.

✨ Logiciels suggérés

Ollama (pour utiliser les modèles)
Cherry Studio (interface graphique de travail)

✨ Ollama

Interface de Ollama

✨ Cherry Studio

Exemple d'utilisation de Cherry Studio avec Ollama

✨ Configuration de l’assistant dans Cherry Studio

Configuration de l'assistant dans Cherry Studio

✨ Trois façons de consommer l’IA

Cloud IA (Abonnement) : ChatGPT, Claude - abonnement mensuel, données chez un tiers.
API Externe (Paiement à l’usage) : OpenRouter, Scaleway - paiement par requête/token.
IA Locale : Gemma, Mistral, Qwen - inférence sur ta machine, sans dépendances.

✨ Comparaison des modèles (1/2)

Critères de comparaison :

Coût : Abonnement fixe vs paiement à l’usage vs investissement initial
Vie privée : Transfert vers tiers vs contrat vs confidentialité totale
Performance : Capacité de traitement, latence, disponibilité

✨ Comparaison des modèles (2/2)

Impact environnemental : Consommation énergétique liée au matériel
Reproductibilité : Contrôle sur les mises à jour du modèle

✨ Prompt efficace

Prompt à copier-coller :

“Analyse ma façon de poser des questions et dis-moi comment structurer mes instructions pour obtenir des réponses précises tout en minimisant les tokens utilisés.”

✨ L’analogie juridique

Approche	Métaphore
Cloud IA	Embauche : tu paies un salaire mensuel
API Externe	Paiement à la minute : tu paies le temps consommé
IA Locale	Formation personnelle : travail, pas de facture

✨ Comparaison énergétique

Un serveur H100 = 700W. Une Tesla Model 3 = ~147 Wh/km.
1h de calcul H100 = ~4.7 km d’autonomie Tesla.
Serveur DGX (8 H100) = ~37 km/h.
Les serveurs IA = véhicule électrique en mouvement.

✨ Quand prioriser l’IA locale

Données sensibles nécessitant l’IA locale :

Données personnelles (loi 25)
Données médicales (loi 5)
Secret professionnel
Propriété intellectuelle / contenus sous embargo

✨ Limites de l’IA locale

L’IA locale n’est pas adaptée pour :

Projets de code complexes ou gros documents
Utilisation de plusieurs outils / MCP simultanés
Temps-réel (traduction instantanée)

✨ Outil : Technique “Caveman”

Réduit la consommation des modèles d’IA en utilisant un langage minimaliste.

Prompt caveman :

You are a code assistant. Respond in caveman speak only.
No pleasantries. Short sentences. Subject-verb-object.
Grunt information. No explain unless asked. Give answer. Stop.

✨ Exemple avec Qwen3.5:4b (t=0.3)

Input : Explique-moi la circularité des ressources dans le reconditionnement.

Output caveman :

Homme prend vieux ordinateur.
Homme nettoie machine.
Homme répare pièce.
Homme vend produit.
Homme recycle métal.
Homme évite déchet.
Homme boucle cycle.
Homme sauve planète.

Bon, pas très inclusif, notre homme des cavernes, mais on comprend l’idée !

✨ Comment me trouver ?

Mon entreprise: Je valide ça, service-conseil
Groupe de recherche / Think Tank: La Concorde Aula / The Aula Fellowship
Sur Passerelles: Profil
Sur LinkedIn: Profil