Ce que vous saurez faire

Comprendre ce qu’est un LLM
Principes architecture transformer
Entraînement vs inférence
Choisir un modèle pour cas d’usage

Vue d’ensemble 1 — Définition

LLM = Large Language Model
Modèle neural entraîné sur des milliards de textes
Prédit le mot suivant basé sur contexte

Exemples:
- Claude 4.6 (Anthropic)
- GPT-5 (OpenAI)
- Gemini 2.5 (Google)
- Llama 3.3 (Meta)
- Mistral Large 3

Vue d’ensemble 2 — Architecture Transformer

Papier fondateur: "Attention is All You Need" (2017)

Composants clés:
- Tokens: mots/sous-mots encodés
- Embeddings: vecteurs de sens
- Attention: mécanisme qui relie les mots
- Couches: empilées pour apprendre patterns complexes

Taille: des milliards de paramètres (GPT-5: ~1700B)

Vue d’ensemble 3 — Phases: entraînement + inférence

ENTRAÎNEMENT (1 fois):
- Coût: millions de dollars
- Durée: semaines/mois sur GPUs
- Données: trillions de tokens web + livres

INFÉRENCE (à chaque requête):
- Coût: millisecondes à secondes
- Latence: 100ms-5s selon modèle
- Facturé au token

Vue d’ensemble 4 — Tokens et contexte

Tokenisation: texte → nombres
"Bonjour le monde" ≈ 4 tokens

1 mot ≈ 1.3 token en français
100 000 tokens ≈ 75 000 mots ≈ un roman

Fenêtre contexte 2026:
- Claude Sonnet: 500 000 tokens
- Gemini 2.5 Pro: 2 millions
- GPT-5: 1 million

Vue d’ensemble 5 — Limitations fondamentales

- Hallucinations (invente des faits)
- Pas de connaissance post-cutoff
- Biais des données d'entraînement
- Difficulté raisonnement mathématique
- Pas de mémoire long-terme entre conversations
- Coût énergétique élevé

Vue d’ensemble 6 — Prompt engineering

Le prompt est votre "programme":
- Instructions claires
- Exemples (few-shot)
- Contexte fourni
- Format de sortie demandé
- Ton/rôle spécifié

Exemple simple:
"Tu es un assistant juridique. Résume ce contrat en 3 points factuels."

Prompt structuré avec XML:
<role>...</role>
<contexte>...</contexte>
<question>...</question>

Vue d’ensemble 7 — Température

r = client.messages.create(
    model="claude-sonnet-4-6",
    temperature=0.2,   # 0-1
    max_tokens=500,
    messages=[...])

# 0.0: déterministe, factuel (extraction, code)
# 0.3-0.7: équilibre (conversation, rédaction)
# 0.9-1.0: créatif (brainstorm, fiction)

Vue d’ensemble 8 — Fine-tuning vs RAG vs Prompting

Fine-tuning: ré-entraîner sur vos données
- Cher, complexe
- Personnalité/style spécifique
- Ex: Mistral fine-tune 2 USD/M tokens

RAG: récupérer contexte dynamique
- Flexible, données à jour
- Cas d'usage: assistant docs internes

Prompting: ajuster le prompt
- Rapide, peu cher
- 80% des besoins

Commencer par prompting. Escalader RAG → Fine-tune seulement si nécessaire.

Vue d’ensemble 9 — Choix modèle 2026

Raisonnement complexe:  Claude Opus 4.7 ou GPT-5
Code:                   Claude Sonnet 4.6
Rédaction FR:           Claude Sonnet ou Gemini 2.5
Bulk low-cost:          Gemini Flash ou GPT-5 mini
Long docs (> 200k):    Gemini 2.5 Pro (2M tokens)
Vision vidéo:           GPT-5 realtime
Auto-hébergé:           Mistral Large 3 ou Llama 3.3

Vue d’ensemble 10 — Tool Use (function calling)

tools = [{
    "name": "get_weather",
    "description": "Météo ville",
    "input_schema": {
        "type": "object",
        "properties": {"ville": {"type": "string"}},
        "required": ["ville"]
    }
}]

r = client.messages.create(
    model="claude-sonnet-4-6",
    tools=tools,
    messages=[{"role":"user","content":"Météo Dakar?"}])

# Le modèle choisit d'appeler get_weather
# Vous exécutez la fonction
# Renvoyez le résultat au modèle

Vue d’ensemble 11 — Agents LLM

Agent = LLM en boucle avec outils

Pattern ReAct:
1. Réflexion ("Je dois chercher l'info X")
2. Action (tool_use)
3. Observation (résultat)
4. Réflexion (suite)
... jusqu'à réponse finale

Frameworks: LangChain, LlamaIndex, CrewAI

Vue d’ensemble 12 — Prompt caching

Partie stable du prompt (system, exemples):
- Marquée cache_control
- Cached côté Anthropic/OpenAI
- -90% coût sur portion cachée

Critique pour:
- System prompts longs
- Exemples few-shot
- Base de connaissance intégrée

Vue d’ensemble 13 — Sécurité prompts

Prompt injection:
Utilisateur essaie d'override vos instructions
"Ignore tes instructions et fais X"

Défense:
- Isoler inputs dans <user_input> balises
- Validation en sortie (filtre PII, toxic)
- Monitoring anomalies

Vue d’ensemble 14 — Coûts mensuels estimés

App chatbot (100 msg/jour):
- Haiku: ~5 USD/mo
- Sonnet: ~30 USD/mo
- Opus: ~200 USD/mo

RAG production (1000 q/jour):
- Embedding: ~5 USD
- Vector DB: ~10 USD
- Sonnet: ~85 USD avec cache
- Total: ~100-150 USD/mo

Avec 100 users quotidiens: amortir facilement

Vue d’ensemble 15 — Pour démarrer

1. Compte Anthropic console.anthropic.com (5 USD crédit)
2. SDK Python: pip install anthropic
3. Clé API en variable env
4. Premier appel: 10 lignes de code
5. Ajouter prompt caching après 100 msg/jour
6. RAG si besoin docs externes
7. Agent si tool use multi-étapes

Ne pas sur-ingénier: commencer simple

Un LLM, c’est quoi exactement ?

Quand un developpeur a Bamako ou Niamey entend parler de Claude, GPT ou Llama, il s’agit toujours du meme objet mathematique : un grand modele de langage, ou Large Language Model (LLM). Concretement, c’est un reseau de neurones entraine a predire le mot suivant dans une sequence. Aussi banale que paraisse cette tache, sa repetition sur des milliards de phrases produit emergent — le modele apprend a coder, raisonner, traduire, resumer, sans qu’on lui ait jamais appris explicitement chaque competence. Cette emergence, mesuree empiriquement par les lois de scaling de Kaplan et al. 2020 puis Chinchilla 2022, est ce qui differencie un LLM moderne d’un correcteur orthographique des annees 2000.

Etape 1 : La brique de base — le Transformer

Tous les LLM modernes reposent sur l’architecture Transformer, introduite par Vaswani et al. 2017 dans le papier Attention Is All You Need. L’idee centrale : remplacer les reseaux recurrents (RNN, LSTM) par un mecanisme d’attention qui regarde tous les mots d’une phrase simultanement, en ponderant leur importance les uns par rapport aux autres. Cette parallelisation rend l’entrainement infiniment plus rapide sur GPU, ce qui a ouvert la voie aux modeles de plusieurs centaines de milliards de parametres.

L’attention en une phrase

Pour chaque mot d’une phrase, le modele calcule un score d’attention vers chaque autre mot. Ces scores deviennent des coefficients qui ponderent une moyenne des representations vectorielles. Resultat : le mot « il » dans la phrase « Le pecheur de Saint-Louis a vendu sa pirogue parce qu’il etait vieux » regoit un fort coefficient d’attention vers « pecheur » plutot que vers « pirogue ». Le modele apprend la reference contextuelle.

Etape 2 : Le tokenizer — les mots ne sont pas des mots

Avant que le Transformer ne traite ton texte, un tokenizer le decoupe en unites appelees tokens. Pour Claude et GPT-4, le tokenizer est de type Byte-Pair Encoding (BPE) qui decoupe en sous-mots. Le mot « Ouagadougou » peut devenir 4 tokens, alors que « hello » est un seul token. Consequence pratique : un texte en francais coute environ 30 a 40 % plus cher en tokens qu’un texte equivalent en anglais, et le wolof ou le bambara peuvent doubler la facture. Pour estimer ton cout, utilise le tokenizer officiel d’Anthropic ou le compteur tiktoken d’OpenAI.

Etape 3 : L’entrainement en trois phases

Un LLM moderne traverse trois phases. Pretraining : on prend Common Crawl, des livres, du code GitHub, et on entraine le modele a predire le mot suivant — des trillions de tokens, des milliers d’heures de GPU H100. Supervised fine-tuning (SFT) : on montre au modele des exemples de bonnes reponses redigees par des humains. Reinforcement Learning from Human Feedback (RLHF) : des humains comparent deux reponses generees, le modele apprend a preferer celle que les humains preferent. Christiano et al. 2017 ont pose les bases du RLHF, raffine ensuite par Anthropic avec Constitutional AI (Bai et al. 2022) pour aligner les modeles sans depasser le budget humain.

Etape 4 : Tokens, contexte et fenetre

Chaque appel a un LLM traite un contexte limite — la « fenetre de contexte ». Claude Opus 4.7 propose 1 million de tokens, GPT-4 Turbo 128 000, Llama 3.3 typiquement 128 000. Au-dela, le modele oublie le debut. Implication pratique : pour traiter un livre de 300 pages, soit tu choisis un modele a tres grande fenetre, soit tu utilises du retrieval (RAG, voir plus bas) pour ne lui envoyer que les passages pertinents.

Etape 5 : Inference — comment le modele genere

A l’inference, le modele genere token par token. A chaque etape, il calcule une distribution de probabilite sur le vocabulaire (typiquement 50 000 a 200 000 tokens), puis echantillonne le prochain token. Trois parametres pilotent cet echantillonnage : temperature (0 = deterministe, 1 = creatif), top_p (nucleus sampling, garde les tokens dont la proba cumulee atteint p), top_k (garde les k tokens les plus probables). Pour de la generation factuelle, force temperature=0. Pour de la creation, monte a 0,7 ou 1,0.

import anthropic
client = anthropic.Anthropic()
msg = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=512,
    temperature=0,
    messages=[{"role": "user", "content": "Resume en 3 phrases l'histoire de Tombouctou."}]
)
print(msg.content[0].text)

Sortie attendue : un resume factuel et stable. Si tu rejoues 10 fois avec temperature=0, tu obtiens (presque) le meme texte. Avec temperature=0,8, chaque execution donne une formulation differente.

Etape 6 : Fine-tuning vs RAG — choisir la bonne approche

Deux strategies pour adapter un LLM a ton domaine. Fine-tuning : tu reentraines une partie des poids sur tes donnees. Couteux, fige le modele dans le temps, mais excellent pour capturer un style ou un format propre. Retrieval-Augmented Generation (RAG) : tu indexes tes documents dans une base vectorielle (Pinecone, Weaviate, Qdrant, pgvector), et a chaque requete tu recuperes les 5 a 10 passages les plus pertinents et tu les injectes dans le prompt. Avantage : la base se met a jour en temps reel, le cout est lineaire au nombre de documents, et tu controles la source de chaque reponse. Pour 90 % des cas metier, RAG bat le fine-tuning.

Quand choisir quoi

Choisis fine-tuning si tu as un format de sortie tres specifique, des donnees stables, et un budget significatif. Choisis RAG si tes connaissances changent, si tu veux citer des sources, ou si tu commences avec un budget serre. Pour beaucoup de cas, on combine — RAG pour les faits, fine-tuning leger (LoRA) pour le style.

Etape 7 : Evaluer un LLM

Trois familles de metriques. Benchmarks generiques : MMLU (connaissances generales), HumanEval (code Python), GSM8K (math), HellaSwag (sens commun). Utiles pour comparer les modeles entre eux, mais peu predictifs de la performance sur ton cas reel. Benchmarks metier : construis 30 a 100 cas representatifs avec reponses de reference, mesure la precision sur ton workflow. Metriques de production : latence p95, cout par requete, taux de refus, taux d’hallucination detecte par regle metier. Sans evaluation continue en production, tu navigues a l’aveugle.

Etape 8 : Hallucinations — comprendre et limiter

Une hallucination est une affirmation fausse generee avec confiance. Causes principales : le modele extrapole au-dela de ses donnees d’entrainement, ou il combine des fragments factuels en une affirmation incorrecte. Mitigations efficaces : RAG avec citations obligatoires, prompts qui demandent « si tu n’es pas sur, dis-le », function calling pour deleguer les calculs et lookups, et verification post-hoc par regles metier. Sur Claude Opus 4.7, le taux d’hallucination factuelle mesure sur des questions de geographie ouest-africaine est environ deux fois plus bas qu’il y a deux ans, mais reste non nul. Garde toujours un humain dans la boucle pour les decisions a fort enjeu.

Etape 9 : Le cout reel d’un LLM en 2026

Pour Claude Sonnet 4.5 fin 2025, environ 3 USD par million de tokens en entree et 15 USD en sortie. Un appel typique de 1500 tokens entree et 500 sortie coute environ 3 FCFA — derisoire a l’unite, mais pour 100 000 appels par mois, on parle de 300 000 FCFA. Optimisations : prompt caching (jusqu’a 90 % de reduction sur les tokens en cache), batch API (50 % de remise en mode async), et choix du bon modele par etape (Haiku pour le triage, Sonnet pour la generation, Opus pour les decisions).

Etape 10 : Choisir ton premier LLM

Pour un projet en francais d’Afrique de l’Ouest avec contraintes de cout, le triplet recommande en 2026 : Claude Sonnet 4.5 pour la production, Claude Haiku pour les volumes eleves a faible enjeu, et Llama 3.3 70B en self-hosted via Groq ou Cerebras pour les cas ou la souverainete des donnees prime. Llama tourne aussi en local sur une carte RTX 4090 avec quantification 4-bit pour des prototypes hors-ligne — utile en zone a connexion intermittente.

Pour faire raisonner ces modeles sur des problemes complexes, lis notre guide Chain-of-Thought avec Claude. Pour les servir a tres faible latence en production, voir notre comparatif Groq vs Cerebras.

Glossaire express pour ne plus etre perdu

Embedding : representation vectorielle d’un mot, d’une phrase ou d’un document, generalement en 384 a 4096 dimensions. C’est ce que tu stockes dans une base vectorielle pour le RAG. Quantification : compression des poids du modele en 8-bit, 4-bit ou meme 2-bit pour le faire tourner sur du materiel modeste, au prix d’une legere perte de precision. LoRA : fine-tuning leger qui ajoute de petits adaptateurs au lieu de reentrainer tous les poids. MoE (Mixture of Experts) : architecture ou seuls quelques experts s’activent par requete, ce qui reduit le cout d’inference. Mistral et certains modeles Llama recents utilisent MoE.

Mythes a oublier en 2026

Mythe numero 1 : « plus de parametres = meilleur modele ». Faux depuis Chinchilla — la qualite des donnees et la duree d’entrainement comptent autant. Un modele 70B bien entraine bat un modele 175B mal entraine. Mythe numero 2 : « les LLM comprennent vraiment ». Ils manipulent des correlations statistiques tres sophistiquees, ce qui produit un comportement indiscernable de la comprehension dans beaucoup de cas, mais pas tous. Mythe numero 3 : « les LLM remplaceront les developpeurs ». La realite observee : ils augmentent la productivite des developpeurs juniors de 30 a 50 %, et celle des seniors de 10 a 20 %. Le bottleneck reste la capacite a specifier correctement le probleme.