Intelligence Artificielle

Chain of thought avec Claude : raisonner sur problèmes complexes

11 min de lecture

Le raisonnement étape par étape libère la puissance de Claude

Le Chain of Thought (CoT) est la technique consistant à demander à Claude d’expliciter son raisonnement avant de donner la réponse. Cette simple modification améliore considérablement la précision sur les problèmes complexes : mathématiques, logique, analyse, décision multicritères.

Pourquoi ça marche

Les LLM génèrent un token à la fois, chaque token influençant le suivant. En forçant l’exposition du raisonnement, on donne au modèle plus de contextes intermédiaires pour aboutir à une conclusion correcte. L’effet est comparable à un étudiant qui détaille sa démarche au tableau plutôt que lancer la réponse finale.

Approches CoT avec Claude

Approche basique : ajouter Pensons étape par étape à la fin du prompt. Amélioration mesurable mais inconstante.

Approche structurée : balises XML thinking et answer. Force Claude à séparer raisonnement et conclusion. Vous pouvez afficher uniquement la réponse dans votre interface, tout en conservant la trace du raisonnement en logs.

Approche decomposition : listez les étapes attendues. Étape 1 : analyser la demande. Étape 2 : identifier les variables. Étape 3 : appliquer la formule. Étape 4 : vérifier la cohérence. Étape 5 : conclure.

Extended thinking avec Claude

Claude Opus 4.7 dispose du mode Extended Thinking : le modèle réfléchit en interne pendant plusieurs secondes (visibles via les thinking tokens) avant de répondre. Activable via le paramètre thinking avec budget_tokens. Amélioration de 15 à 30 pour cent sur benchmarks de raisonnement difficile.

Cas pratique 1 : analyse financière

Prompt : Analyse les états financiers suivants et identifie les 3 risques majeurs. Pense étape par étape. Structure : thinking (analyse ligne par ligne, ratios calculés, comparaisons), answer (3 risques identifiés avec impacts chiffrés).

Sans CoT : Claude liste 3 risques génériques. Avec CoT : Claude fait les ratios, détecte une dégradation de trésorerie précise, identifie un ratio d’endettement alarmant et chiffre l’impact.

Cas pratique 2 : décision de produit

Prompt : Nous hésitons entre 3 technologies pour notre backend (Node.js, Go, Python). Voici nos contraintes : équipe 5 devs seniors Python, besoin haute performance, budget serré. Raisonne pour chacune selon 5 critères : performance, coût, vélocité équipe, maintenabilité, écosystème.

Résultat CoT : Claude compare systématiquement chaque technologie sur chaque critère, justifie une recommandation argumentée plutôt qu’un avis générique.

Cas pratique 3 : résolution mathématique

Prompt : Un prêt de 3 M FCFA à 12 pour cent sur 36 mois. Calcule la mensualité, le coût total et compare à un prêt de 2,5 M sur 24 mois à 10 pour cent. Quelle option coûte moins cher in fine ?

Avec CoT, Claude détaille : calcul mensualité option 1 (VPM), coût total, idem option 2, différence chiffrée. Moins d’erreurs que sans CoT.

Piège : faux CoT

Claude peut simuler un raisonnement qui semble logique mais contient des erreurs cachées. Toujours vérifier les calculs numériques manuellement ou via un outil (Python Code Execution). CoT améliore la probabilité de justesse mais ne garantit pas zéro erreur.

Combiner CoT et tools

Pour calculs critiques : Claude raisonne, identifie qu’un calcul est nécessaire, appelle un outil Python ou une fonction dédiée, reçoit le résultat précis, puis conclut. Meilleur des deux mondes : raisonnement naturel + précision calculatoire.

CoT et hallucinations

Le CoT réduit les hallucinations sur les tâches de raisonnement mais peut en créer de nouvelles si on pousse à inventer des étapes qui n’existent pas. Ajoutez Si tu n’as pas assez d’informations, dis-le explicitement au lieu de supposer.

Format recommandé

Dans system : Pour chaque question complexe, commence par analyser dans une balise thinking, puis réponds dans une balise answer. Ne réponds jamais directement sans avoir pensé dans thinking. Cette discipline de formatage systématise l’approche.

Impact sur les coûts

CoT augmente la longueur de la réponse, donc les tokens de sortie facturés. Sur un prompt classique : augmentation de 50 à 200 pour cent du coût. Justifiable pour les tâches à forte valeur. Pour volume : retirez CoT ou utilisez Haiku 4.

Conclusion

Le Chain of Thought est la technique la plus impactante du prompt engineering. Gratuite, immédiate, applicable partout. Pour tout cas d’usage impliquant décision, analyse ou raisonnement, c’est un non-négociable. L’Extended Thinking pousse encore plus loin pour les tâches hardcore.

Pourquoi le Chain-of-Thought change la donne

Quand un developpeur a Abidjan, Dakar ou Cotonou pose une question complexe a Claude — un calcul de marge logistique, un raisonnement juridique sur la loi sur les donnees personnelles, ou un debogage SQL imbrique — la difference entre une reponse plate et une reponse correcte tient souvent a une seule chose : avoir demande au modele de raisonner pas a pas avant de conclure. C’est exactement ce que Wei et al. ont formalise en 2022 dans leur papier Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (arXiv 2201.11903). Sur GSM8K, leur benchmark de problemes mathematiques niveau collegien, le simple ajout de la consigne « raisonne etape par etape » faisait passer la precision d’un grand modele de 17,9 % a 58,1 %. Cette amelioration n’est pas anecdotique : elle redessine la maniere dont on construit un prompt en production.

Etape 1 : Identifier les problemes qui beneficient du raisonnement explicite

Tous les prompts ne reclament pas un Chain-of-Thought. Pour une extraction d’entites nommees ou une traduction litterale, l’overhead degrade meme la qualite. La regle empirique : si un humain expert prendrait plus de quelques secondes a repondre, le modele a besoin de raisonner. Cas typiques : calculs en plusieurs etapes, comparaisons de plusieurs documents, debogage logique, decisions strategiques avec contraintes multiples, planification d’architecture. A l’inverse, classification binaire et reformulation s’en passent.

Mini-test pour decider

Pose-toi trois questions avant de cabler un Chain-of-Thought : (1) Y a-t-il plusieurs etapes intermediaires ? (2) Le resultat depend-il d’un calcul ou d’une condition ? (3) Une erreur dans une etape intermediaire fausse-t-elle le resultat final ? Si tu reponds oui a au moins deux, active CoT.

Etape 2 : Le prompt zero-shot CoT minimal

La forme la plus economique, etudiee par Kojima et al. 2022 (Large Language Models are Zero-Shot Reasoners, arXiv 2205.11916), est d’ajouter simplement « Raisonne etape par etape » a la fin de la consigne. Avec Claude, l’equivalent francais qui fonctionne le mieux dans nos tests internes :

Question : Une boutique a Dakar achete un lot de 240 telephones a 87 500 FCFA piece. Elle revend 60 % du stock avec une marge de 18 %, puis solde le reste a -7 %. Quel est le benefice net total ?

Reponds en raisonnant pas a pas, puis donne le chiffre final sur la derniere ligne.

Cette derniere phrase est cruciale. Sans la consigne « chiffre final sur la derniere ligne », le parsing automatique de la reponse devient fragile en production. Avec, tu peux extraire le resultat avec une regex sur la derniere ligne non vide.

Etape 3 : Le few-shot CoT pour les cas metier

Pour des problemes recurrents — qualification de leads, triage de tickets support, evaluation de risque credit — un few-shot avec 2 a 4 exemples raisonnes bat largement le zero-shot. Le format canonique :

Exemple 1
Question : [enonce]
Raisonnement : [3 a 6 etapes numerotees]
Reponse : [verdict court]

Exemple 2
Question : [enonce]
Raisonnement : [...]
Reponse : [...]

Question reelle
Question : [le cas a traiter]
Raisonnement :

En laissant le modele continuer apres « Raisonnement : », tu l’amorces dans le format attendu. Le gain mesure sur des taches de qualification de leads B2B en franco-africain : passage de 71 % a 89 % d’accord avec un humain expert.

Etape 4 : Self-consistency pour les decisions critiques

Pour un calcul de provision comptable ou un diagnostic medical assistant, une seule chaine de raisonnement reste fragile. La technique de self-consistency (Wang et al. 2022, arXiv 2203.11171) consiste a generer N=5 a 10 reponses avec temperature 0,7, puis a prendre la majorite. Sur GSM8K, self-consistency fait passer Claude de 78 % a 92 % de precision. Le cout : 5 a 10x plus de tokens. A reserver aux decisions ou une erreur coute plus cher que les tokens.

Implementation pratique avec l’API Anthropic

import anthropic, collections
client = anthropic.Anthropic()
votes = []
for _ in range(7):
    msg = client.messages.create(
        model="claude-sonnet-4-5",
        max_tokens=1024,
        temperature=0.7,
        messages=[{"role": "user", "content": prompt_cot}]
    )
    last_line = msg.content[0].text.strip().split("\n")[-1]
    votes.append(last_line)
final = collections.Counter(votes).most_common(1)[0][0]

Sortie attendue : la reponse la plus frequente parmi 7 raisonnements independants. Si les 7 votes divergent, c’est un signal fort que la question est mal posee ou que le modele manque de contexte.

Etape 5 : Pieges courants en production

Trois pieges reviennent dans nos audits de code base ouest-africains. Le premier : laisser le raisonnement fuir dans la reponse utilisateur. Solution — encadre le raisonnement avec des balises <thinking>…</thinking> et n’affiche que le contenu apres. Le deuxieme : facturer le raisonnement a l’utilisateur final alors qu’il ne le voit pas. Calcule la marge en integrant le surcout tokens du CoT. Le troisieme : oublier que le raisonnement public peut etre exploite par un attaquant pour comprendre tes regles metier. Pour un usage externe, masque ou resume le raisonnement.

Etape 6 : Mesurer l’impact sur ton cas reel

Construis un jeu d’evaluation de 30 a 100 cas reels avec reponse de reference. Compare trois variantes : sans CoT, zero-shot CoT, few-shot CoT. Metriques : precision, latence p95, cout par requete. Pour la majorite des cas metier, few-shot CoT gagne sur precision avec un surcout latence acceptable (typiquement +800 ms a 1500 ms sur Claude Sonnet 4.5). Si la latence est critique (chatbot temps reel), zero-shot CoT offre un meilleur compromis.

Etape 7 : Combiner CoT et tools

Le CoT brille quand il oriente l’usage des outils. Au lieu d’appeler une fonction calculatrice a l’aveugle, demande au modele de poser le probleme, d’identifier les sous-calculs, puis d’appeler la fonction pour chaque sous-calcul. Cette approche (ReAct, Yao et al. 2022) reduit les hallucinations numeriques de 60 a 80 % sur les benchmarks d’arithmetique. Pour un assistant de gestion commerciale a Lome ou Ouagadougou, cela signifie moins d’erreurs de TVA et de conversion FCFA.

Pour explorer plus loin

Une fois le CoT maitrise, regarde du cote de Tree-of-Thoughts (Yao et al. 2023) pour les problemes a forte branchement, et des prompts de verification (Weng et al. 2023) ou le modele relit son propre raisonnement avant de conclure. Sur les modeles Claude recents, la fonction extended thinking automatise une partie de cette logique cote serveur — utile quand tu ne veux pas gerer le prompt CoT manuellement.

Etude de cas : qualification de leads B2B a Dakar

Une fintech basee a Dakar utilisait un classifieur logistique pour qualifier ses leads entrants. Precision a 71 %, beaucoup de faux negatifs sur les PME du secteur agricole — sous-representees a l’entrainement. En remplacant le classifieur par un appel Claude Sonnet 4.5 avec few-shot CoT (4 exemples couvrant industrie, agro, commerce, services), la precision est passee a 89 % en deux semaines. Le secret : les exemples raisonnent explicitement sur la taille d’effectif, le chiffre d’affaires en FCFA, le secteur reglemente ou non, et la proximite avec les services deja vendus. Le modele apprend la grille de scoring sans qu’on ait besoin de la coder.

Le prompt utilise (extrait simplifie)

Tu qualifies des leads entrants pour une fintech B2B au Senegal.
Critere de qualification : potentiel de chiffre d'affaires annuel superieur a 5 millions FCFA et secteur compatible.

Exemple 1
Lead : "Cooperative agricole, 12 employes, exporte du sesame vers le Mali, CA 2025 estime 38 M FCFA"
Raisonnement :
1. Effectif : 12 employes — segment PME conforme
2. Secteur : agro-export — compatible avec notre offre de credit court terme
3. CA : 38 M FCFA, largement au-dessus du seuil
4. Risque : exportation regionale, devise FCFA stable
Reponse : QUALIFIE

Exemple 2
Lead : "Auto-entrepreneur, 1 personne, vente de gadgets en ligne, CA 2 M FCFA"
Raisonnement :
1. Effectif : 1 personne — hors segment
2. CA : 2 M FCFA, sous le seuil de 5 M
3. Secteur : e-commerce sans historique bancaire
Reponse : NON QUALIFIE

En production, ce prompt tourne a environ 1200 tokens en entree et 200 en sortie, soit moins de 4 FCFA par lead au tarif Sonnet 4.5 actuel. Pour 5000 leads par mois, cela represente 20 000 FCFA — a comparer avec le cout d’un commercial junior qui qualifierait manuellement le meme volume.

Erreurs frequentes a eviter

Premiere erreur : empiler trop d’exemples. Au-dela de 6 ou 7 exemples, le modele se met a copier la structure litterale au lieu de generaliser. Deuxieme erreur : melanger les langues dans les exemples. Si le cas reel est en francais, garde tous les exemples en francais — meme si ton dataset d’origine est anglais. Troisieme erreur : oublier la temperature. Pour un raisonnement deterministe (calcul, regle metier), force temperature=0. Pour la self-consistency, monte a 0,7. Quatrieme erreur : ne pas logger les chaines de raisonnement en debug. Quand une reponse est fausse, tu veux pouvoir relire le raisonnement pour identifier l’etape ou le modele a derape.

Quand le CoT echoue

Le Chain-of-Thought n’est pas une baguette magique. Sur les questions piegees ou la reponse intuitive est fausse mais convaincante, le CoT peut amplifier l’erreur en construisant un raisonnement coherent autour d’une mauvaise premisse. C’est documente dans Faithful Chain-of-Thought Reasoning (Lyu et al. 2023). Le garde-fou : pour les decisions a fort enjeu, demande au modele de produire d’abord trois hypotheses concurrentes, puis de les evaluer, avant de conclure. Ce pattern debate-then-decide reduit les biais de confirmation que le CoT seul peut renforcer.

Pour étoffer le tableau sur les fondations, lis notre introduction aux LLM expliques simplement et notre guide sur Groq et Cerebras si tu veux servir tes prompts CoT a tres faible latence.

Articles connexes Claude

Partager