Vous voulez coder avec une IA, mais sans payer un abonnement au token ni envoyer votre code sur les serveurs d’un tiers. C’est exactement ce que permet un modèle exécuté en local : il tourne sur votre machine, gratuitement, et vos fichiers ne quittent jamais votre disque. La première brique de ce montage, c’est Ollama — l’outil qui télécharge et fait tourner des modèles de langage sur votre ordinateur. À la fin de ce tutoriel, vous aurez un modèle spécialisé dans le code prêt à répondre, vérifié par un vrai test.

📍 Guide principal de la série : Coder avec une IA en local : Cline, Ollama et les assistants souverains. Pour la vue d’ensemble, commencez par là.

Ce que vous allez apprendre

Installer Ollama sur Linux, macOS ou Windows ;
Comprendre ce que votre matériel peut faire tourner (RAM, VRAM, quantization) ;
Télécharger un modèle spécialisé dans le code et le lancer ;
Vérifier que le modèle répond correctement avec un test concret ;
Gérer vos modèles (lister, supprimer, voir ce qui tourne).

Ce que vous allez construire

Une base d’inférence locale fonctionnelle : Ollama installé, un modèle de code téléchargé, et un premier échange réussi en ligne de commande. C’est le moteur qui, dans les tutoriels suivants, alimentera l’agent Cline pour écrire le projet fil rouge — une petite application de prise de notes en ligne de commande baptisée « carnet ».

Avant de commencer

Un ordinateur raisonnablement récent. Un modèle de code utilisable tourne dès 8 à 16 Go de RAM ; une carte graphique avec de la VRAM accélère fortement, mais n’est pas obligatoire ;
Quelques gigaoctets d’espace disque : un modèle de code pèse de 1 à 20 Go selon sa taille ;
Un terminal et les droits d’administration pour l’installation ;
Niveau : débutant à intermédiaire.

⏱️ Temps estimé : environ 25 minutes, téléchargement du modèle compris.

Étape 1 — Installer Ollama

Ollama est un petit serveur local qui télécharge des modèles et expose une API sur votre machine. On commence par l’installer, car rien ne fonctionne sans lui. La méthode dépend de votre système, mais reste simple dans tous les cas.

Sur Linux, une seule commande suffit :

curl -fsSL https://ollama.com/install.sh | sh

Sur macOS et Windows, téléchargez l’application depuis ollama.com et installez-la comme n’importe quel logiciel ; elle lance le service en arrière-plan. Pour vérifier que tout est en place, demandez sa version :

ollama --version

Vous devez voir un numéro de version s’afficher. Si la commande n’est pas reconnue, fermez puis rouvrez votre terminal pour qu’il recharge le PATH, ou redémarrez la session. À ce stade, le service Ollama tourne et écoute en local sur le port 11434 — une information à retenir, car c’est par cette adresse que l’agent Cline le contactera plus tard.

✅ Point d’étape — ollama --version renvoie un numéro. Si ce n’est pas le cas, l’installation n’a pas abouti : relancez-la et vérifiez les messages d’erreur.

Étape 2 — Comprendre ce que votre matériel peut faire

Avant de télécharger un modèle au hasard, il faut savoir lequel votre machine peut faire tourner confortablement. Un modèle trop gros pour votre mémoire fonctionnera quand même, mais très lentement, en débordant sur le disque. La règle utile tourne autour de la quantization : les modèles sont compressés (souvent en Q4) pour tenir dans moins de mémoire, au prix d’une légère perte de qualité.

Voici des repères réalistes pour un modèle de code, en quantization Q4 :

8 Go de RAM/VRAM : un modèle de 7 milliards de paramètres (7B) passe et reste utile pour la complétion, le refactoring et l’explication de code ;
16 Go : confortable pour du 7B, parfois du 14B ;
24 Go de VRAM (cartes type RTX 3090/4090) : un modèle 32B devient accessible et se rapproche nettement de la qualité des modèles cloud.

Sans carte graphique dédiée, Ollama utilise le processeur et la mémoire vive : c’est plus lent, mais un modèle 7B reste exploitable pour la plupart des tâches quotidiennes. L’idée n’est pas d’égaler les plus gros modèles cloud, mais de couvrir la grande majorité du travail courant, gratuitement et en privé.

Étape 3 — Télécharger un modèle de code

Place au cœur du sujet : récupérer un modèle entraîné pour le code. Un modèle généraliste sait coder, mais un modèle spécialisé fait nettement mieux sur les tâches de programmation. Une valeur sûre, bien adaptée à un usage local, est la famille Qwen2.5-Coder, déclinée en plusieurs tailles (0,5B, 1,5B, 3B, 7B, 14B et 32B).

Téléchargez la version 7B, qui est le bon compromis par défaut :

ollama pull qwen2.5-coder:7b

Le téléchargement démarre — comptez quelques gigaoctets. Si votre machine est modeste, prenez une taille inférieure (par exemple qwen2.5-coder:3b) ; si vous disposez de 24 Go de VRAM, visez qwen2.5-coder:32b pour une qualité supérieure. Le numéro après les deux-points est la taille ; l’omettre télécharge la version par défaut (7B).

✅ Point d’étape — La commande se termine sur « success ». Le modèle est désormais sur votre disque, prêt à l’emploi, sans aucune connexion requise pour l’utiliser ensuite.

Étape 4 — Lancer le modèle et lui parler

Un modèle téléchargé ne sert à rien tant qu’on ne l’a pas essayé. Lancez une session interactive pour confirmer qu’il répond et qu’il code correctement :

ollama run qwen2.5-coder:7b

Une invite apparaît. Posez-lui une vraie question de code, par exemple :

Écris une fonction Python qui lit un fichier JSON
de notes et renvoie la liste triée par date.

Le modèle réfléchit quelques secondes (selon votre matériel) puis génère la fonction. Lisez-la : elle doit être syntaxiquement correcte et faire ce qui est demandé. C’est votre premier signal de réussite — le moteur qui écrira le projet « carnet » fonctionne. Pour quitter la session, tapez /bye.

Ce test n’est pas anecdotique : il valide à la fois l’installation, le téléchargement et la capacité réelle du modèle à produire du code utilisable sur votre machine. Si la réponse est lente mais correcte, c’est normal sur CPU ; si elle est incohérente, le modèle est probablement trop petit pour la tâche — passez à une taille au-dessus.

✅ Point d’étape — Vous obtenez une fonction Python cohérente. Si la génération est extrêmement lente, vérifiez que vous n’avez pas pris un modèle trop gros pour votre mémoire.

Étape 5 — Gérer ses modèles

Avec le temps, vous accumulerez plusieurs modèles. Quelques commandes suffisent à garder le contrôle. Pour lister ce qui est installé et l’espace occupé :

ollama list

Pour voir les modèles actuellement chargés en mémoire (utile pour comprendre la consommation de RAM) :

ollama ps

Et pour libérer de l’espace en supprimant un modèle dont vous n’avez plus besoin :

ollama rm qwen2.5-coder:3b

Ces commandes vous évitent de saturer votre disque et de vous demander, trois mois plus tard, lequel de vos cinq modèles vous utilisez vraiment. Un bon réflexe : garder un modèle « rapide » petit pour les tâches simples et un modèle « costaud » pour les passages difficiles.

Pièges fréquents

Symptôme	Cause probable	Correctif
ollama : commande introuvable	PATH non rechargé après installation	Rouvrir le terminal ou se reconnecter à la session
Génération extrêmement lente	Modèle trop gros pour la mémoire, débordement sur disque	Choisir une taille inférieure (7B, voire 3B)
« connection refused » sur le port 11434	Le service Ollama n’est pas démarré	Lancer l’application, ou démarrer le service Ollama
Réponses de code incohérentes	Modèle trop petit pour la tâche	Monter d’une taille, ou utiliser un modèle spécialisé code
Disque saturé	Plusieurs gros modèles cumulés	ollama list puis ollama rm sur les inutiles

Réalités du terrain

Le grand avantage du local apparaît justement quand la connexion est mauvaise : une fois le modèle téléchargé, il fonctionne entièrement hors-ligne, sans consommer de données ni dépendre d’un service distant. La seule étape gourmande en réseau est le téléchargement initial — faites-le quand votre connexion est la meilleure, puis travaillez sans contrainte. Côté budget, tout est gratuit : pas d’abonnement, pas de facturation au token, vous ne payez que l’électricité de votre machine. Sur un ordinateur modeste, privilégiez un modèle 7B et acceptez une vitesse plus posée ; la qualité reste largement suffisante pour apprendre et pour la majorité des tâches réelles.

Comment fonctionne Ollama, en deux mots

Comprendre le mécanisme aide à diagnostiquer les problèmes. Ollama n’est pas une simple commande : c’est un serveur qui tourne en permanence en arrière-plan et expose une API HTTP locale sur le port 11434. Quand vous tapez ollama run, le client en ligne de commande envoie en réalité vos messages à ce serveur, qui charge le modèle en mémoire et renvoie la réponse.

Cette architecture explique deux choses. D’abord, n’importe quel logiciel sur votre machine peut parler à Ollama via cette API — c’est précisément ainsi que l’agent Cline s’y branchera, en pointant sur http://localhost:11434. Ensuite, le premier message après un moment d’inactivité est plus lent : le serveur recharge le modèle en mémoire. Les messages suivants sont rapides car le modèle reste chargé un temps, ce que vous pouvez observer avec ollama ps. Garder ce modèle mental en tête vous évitera de croire à un bug là où il n’y a qu’un chargement.

La quantization, sans jargon

Un modèle de langage est un énorme ensemble de nombres. Dans sa version d’origine, chaque nombre occupe 16 bits, ce qui rend les gros modèles impossibles à charger sur une machine ordinaire. La quantization consiste à réduire la précision de ces nombres — souvent à 4 bits, d’où l’étiquette « Q4 » — pour diviser la taille par trois ou quatre, avec une perte de qualité généralement faible.

Concrètement, c’est ce qui rend l’IA locale possible sur un ordinateur grand public : un modèle 7B en Q4 tient dans quelques gigaoctets et tourne sur une machine modeste, là où sa version pleine précision en exigerait beaucoup plus. Ollama télécharge par défaut une variante quantizée bien équilibrée, donc vous n’avez rien à régler pour démarrer. Retenez simplement la logique : plus de paramètres (32B vs 7B) améliore la qualité mais demande plus de mémoire ; une quantization plus agressive réduit la mémoire mais grignote un peu la précision. Le bon modèle est celui qui tient confortablement dans votre mémoire tout en restant assez gros pour la tâche.

Récapitulatif

Vous avez installé Ollama, compris ce que votre matériel peut faire tourner, téléchargé un modèle spécialisé dans le code, vérifié qu’il génère du code correct, et appris à gérer vos modèles. Le moteur d’inférence local est en place et opérationnel. Il ne reste plus qu’à lui donner un pilote intelligent : dans le tutoriel suivant, on installe l’agent Cline dans VS Code et on le branche sur ce modèle.

Aide-mémoire

Commande	Rôle
curl -fsSL https://ollama.com/install.sh \| sh	Installer Ollama (Linux)
ollama –version	Vérifier l’installation
ollama pull qwen2.5-coder:7b	Télécharger un modèle de code
ollama run qwen2.5-coder:7b	Lancer une session interactive
ollama list	Lister les modèles installés
ollama ps	Voir les modèles chargés en mémoire
ollama rm <modèle>	Supprimer un modèle
Port 11434	API locale d’Ollama (utilisée par Cline)

À vous de jouer

Défi : téléchargez deux tailles du même modèle (par exemple 3B et 7B), posez-leur la même question de code, et comparez la qualité des réponses et la vitesse. Laquelle convient le mieux à votre machine ?

Voir une piste de solution

Lancez ollama pull qwen2.5-coder:3b puis ollama pull qwen2.5-coder:7b. Posez à chacun « écris une fonction de validation d’adresse e-mail en Python ». Le 3B répondra plus vite mais avec parfois des approximations ; le 7B sera plus lent et plus fiable. Gardez celui qui offre le meilleur équilibre sur votre matériel, et supprimez l’autre avec ollama rm.

Tutoriels associés

Installer Cline dans VS Code et le brancher sur Ollama — la suite directe.
Choisir le bon modèle local pour coder — pour aller plus loin sur le choix du modèle.

Pour aller plus loin

🔝 Revenir au guide principal : Coder avec une IA en local : Cline, Ollama et les assistants souverains.
Documentation officielle : ollama.com et la bibliothèque de modèles ollama.com/library.

FAQ

Ollama est-il gratuit ?
Oui, Ollama est gratuit et open source, et les modèles de la bibliothèque sont téléchargeables sans frais. Vous ne payez que votre matériel et son électricité.

Faut-il une carte graphique ?
Non. Une carte graphique avec de la VRAM accélère beaucoup l’inférence, mais Ollama fonctionne aussi sur le processeur. Un modèle 7B reste utilisable sur CPU.

Mes données partent-elles sur Internet ?
Non. Une fois le modèle téléchargé, tout se passe sur votre machine, hors-ligne. C’est l’argument central du local : confidentialité totale.

Quelle taille de modèle choisir ?
Commencez par la 7B (bon compromis). Descendez à 3B si votre machine est modeste, montez à 32B si vous avez 24 Go de VRAM.