Vous voulez coder avec une IA, mais sans payer un abonnement au token ni envoyer votre code sur les serveurs d’un tiers. C’est exactement ce que permet un modèle exécuté en local : il tourne sur votre machine, gratuitement, et vos fichiers ne quittent jamais votre disque. La première brique de ce montage, c’est Ollama — l’outil qui télécharge et fait tourner des modèles de langage sur votre ordinateur. À la fin de ce tutoriel, vous aurez un modèle spécialisé dans le code prêt à répondre, vérifié par un vrai test.
📍 Guide principal de la série : Coder avec une IA en local : Cline, Ollama et les assistants souverains. Pour la vue d’ensemble, commencez par là.
Ce que vous allez apprendre
- Installer Ollama sur Linux, macOS ou Windows ;
- Comprendre ce que votre matériel peut faire tourner (RAM, VRAM, quantization) ;
- Télécharger un modèle spécialisé dans le code et le lancer ;
- Vérifier que le modèle répond correctement avec un test concret ;
- Gérer vos modèles (lister, supprimer, voir ce qui tourne).
Ce que vous allez construire
Une base d’inférence locale fonctionnelle : Ollama installé, un modèle de code téléchargé, et un premier échange réussi en ligne de commande. C’est le moteur qui, dans les tutoriels suivants, alimentera l’agent Cline pour écrire le projet fil rouge — une petite application de prise de notes en ligne de commande baptisée « carnet ».
Avant de commencer
- Un ordinateur raisonnablement récent. Un modèle de code utilisable tourne dès 8 à 16 Go de RAM ; une carte graphique avec de la VRAM accélère fortement, mais n’est pas obligatoire ;
- Quelques gigaoctets d’espace disque : un modèle de code pèse de 1 à 20 Go selon sa taille ;
- Un terminal et les droits d’administration pour l’installation ;
- Niveau : débutant à intermédiaire.
⏱️ Temps estimé : environ 25 minutes, téléchargement du modèle compris.
Étape 1 — Installer Ollama
Ollama est un petit serveur local qui télécharge des modèles et expose une API sur votre machine. On commence par l’installer, car rien ne fonctionne sans lui. La méthode dépend de votre système, mais reste simple dans tous les cas.
Sur Linux, une seule commande suffit :
curl -fsSL https://ollama.com/install.sh | sh
Sur macOS et Windows, téléchargez l’application depuis ollama.com et installez-la comme n’importe quel logiciel ; elle lance le service en arrière-plan. Pour vérifier que tout est en place, demandez sa version :
ollama --version
Vous devez voir un numéro de version s’afficher. Si la commande n’est pas reconnue, fermez puis rouvrez votre terminal pour qu’il recharge le PATH, ou redémarrez la session. À ce stade, le service Ollama tourne et écoute en local sur le port 11434 — une information à retenir, car c’est par cette adresse que l’agent Cline le contactera plus tard.
✅ Point d’étape —
ollama --versionrenvoie un numéro. Si ce n’est pas le cas, l’installation n’a pas abouti : relancez-la et vérifiez les messages d’erreur.
Étape 2 — Comprendre ce que votre matériel peut faire
Avant de télécharger un modèle au hasard, il faut savoir lequel votre machine peut faire tourner confortablement. Un modèle trop gros pour votre mémoire fonctionnera quand même, mais très lentement, en débordant sur le disque. La règle utile tourne autour de la quantization : les modèles sont compressés (souvent en Q4) pour tenir dans moins de mémoire, au prix d’une légère perte de qualité.
Voici des repères réalistes pour un modèle de code, en quantization Q4 :
- 8 Go de RAM/VRAM : un modèle de 7 milliards de paramètres (7B) passe et reste utile pour la complétion, le refactoring et l’explication de code ;
- 16 Go : confortable pour du 7B, parfois du 14B ;
- 24 Go de VRAM (cartes type RTX 3090/4090) : un modèle 32B devient accessible et se rapproche nettement de la qualité des modèles cloud.
Sans carte graphique dédiée, Ollama utilise le processeur et la mémoire vive : c’est plus lent, mais un modèle 7B reste exploitable pour la plupart des tâches quotidiennes. L’idée n’est pas d’égaler les plus gros modèles cloud, mais de couvrir la grande majorité du travail courant, gratuitement et en privé.
Étape 3 — Télécharger un modèle de code
Place au cœur du sujet : récupérer un modèle entraîné pour le code. Un modèle généraliste sait coder, mais un modèle spécialisé fait nettement mieux sur les tâches de programmation. Une valeur sûre, bien adaptée à un usage local, est la famille Qwen2.5-Coder, déclinée en plusieurs tailles (0,5B, 1,5B, 3B, 7B, 14B et 32B).
Téléchargez la version 7B, qui est le bon compromis par défaut :
ollama pull qwen2.5-coder:7b
Le téléchargement démarre — comptez quelques gigaoctets. Si votre machine est modeste, prenez une taille inférieure (par exemple qwen2.5-coder:3b) ; si vous disposez de 24 Go de VRAM, visez qwen2.5-coder:32b pour une qualité supérieure. Le numéro après les deux-points est la taille ; l’omettre télécharge la version par défaut (7B).
✅ Point d’étape — La commande se termine sur « success ». Le modèle est désormais sur votre disque, prêt à l’emploi, sans aucune connexion requise pour l’utiliser ensuite.
Étape 4 — Lancer le modèle et lui parler
Un modèle téléchargé ne sert à rien tant qu’on ne l’a pas essayé. Lancez une session interactive pour confirmer qu’il répond et qu’il code correctement :
ollama run qwen2.5-coder:7b
Une invite apparaît. Posez-lui une vraie question de code, par exemple :
Écris une fonction Python qui lit un fichier JSON
de notes et renvoie la liste triée par date.
Le modèle réfléchit quelques secondes (selon votre matériel) puis génère la fonction. Lisez-la : elle doit être syntaxiquement correcte et faire ce qui est demandé. C’est votre premier signal de réussite — le moteur qui écrira le projet « carnet » fonctionne. Pour quitter la session, tapez /bye.
Ce test n’est pas anecdotique : il valide à la fois l’installation, le téléchargement et la capacité réelle du modèle à produire du code utilisable sur votre machine. Si la réponse est lente mais correcte, c’est normal sur CPU ; si elle est incohérente, le modèle est probablement trop petit pour la tâche — passez à une taille au-dessus.
✅ Point d’étape — Vous obtenez une fonction Python cohérente. Si la génération est extrêmement lente, vérifiez que vous n’avez pas pris un modèle trop gros pour votre mémoire.
Étape 5 — Gérer ses modèles
Avec le temps, vous accumulerez plusieurs modèles. Quelques commandes suffisent à garder le contrôle. Pour lister ce qui est installé et l’espace occupé :
ollama list
Pour voir les modèles actuellement chargés en mémoire (utile pour comprendre la consommation de RAM) :
ollama ps
Et pour libérer de l’espace en supprimant un modèle dont vous n’avez plus besoin :
ollama rm qwen2.5-coder:3b
Ces commandes vous évitent de saturer votre disque et de vous demander, trois mois plus tard, lequel de vos cinq modèles vous utilisez vraiment. Un bon réflexe : garder un modèle « rapide » petit pour les tâches simples et un modèle « costaud » pour les passages difficiles.
Pièges fréquents
| Symptôme | Cause probable | Correctif |
|---|---|---|
| ollama : commande introuvable | PATH non rechargé après installation | Rouvrir le terminal ou se reconnecter à la session |
| Génération extrêmement lente | Modèle trop gros pour la mémoire, débordement sur disque | Choisir une taille inférieure (7B, voire 3B) |
| « connection refused » sur le port 11434 | Le service Ollama n’est pas démarré | Lancer l’application, ou démarrer le service Ollama |
| Réponses de code incohérentes | Modèle trop petit pour la tâche | Monter d’une taille, ou utiliser un modèle spécialisé code |
| Disque saturé | Plusieurs gros modèles cumulés | ollama list puis ollama rm sur les inutiles |
Réalités du terrain
Le grand avantage du local apparaît justement quand la connexion est mauvaise : une fois le modèle téléchargé, il fonctionne entièrement hors-ligne, sans consommer de données ni dépendre d’un service distant. La seule étape gourmande en réseau est le téléchargement initial — faites-le quand votre connexion est la meilleure, puis travaillez sans contrainte. Côté budget, tout est gratuit : pas d’abonnement, pas de facturation au token, vous ne payez que l’électricité de votre machine. Sur un ordinateur modeste, privilégiez un modèle 7B et acceptez une vitesse plus posée ; la qualité reste largement suffisante pour apprendre et pour la majorité des tâches réelles.
Comment fonctionne Ollama, en deux mots
Comprendre le mécanisme aide à diagnostiquer les problèmes. Ollama n’est pas une simple commande : c’est un serveur qui tourne en permanence en arrière-plan et expose une API HTTP locale sur le port 11434. Quand vous tapez ollama run, le client en ligne de commande envoie en réalité vos messages à ce serveur, qui charge le modèle en mémoire et renvoie la réponse.
Cette architecture explique deux choses. D’abord, n’importe quel logiciel sur votre machine peut parler à Ollama via cette API — c’est précisément ainsi que l’agent Cline s’y branchera, en pointant sur http://localhost:11434. Ensuite, le premier message après un moment d’inactivité est plus lent : le serveur recharge le modèle en mémoire. Les messages suivants sont rapides car le modèle reste chargé un temps, ce que vous pouvez observer avec ollama ps. Garder ce modèle mental en tête vous évitera de croire à un bug là où il n’y a qu’un chargement.
La quantization, sans jargon
Un modèle de langage est un énorme ensemble de nombres. Dans sa version d’origine, chaque nombre occupe 16 bits, ce qui rend les gros modèles impossibles à charger sur une machine ordinaire. La quantization consiste à réduire la précision de ces nombres — souvent à 4 bits, d’où l’étiquette « Q4 » — pour diviser la taille par trois ou quatre, avec une perte de qualité généralement faible.
Concrètement, c’est ce qui rend l’IA locale possible sur un ordinateur grand public : un modèle 7B en Q4 tient dans quelques gigaoctets et tourne sur une machine modeste, là où sa version pleine précision en exigerait beaucoup plus. Ollama télécharge par défaut une variante quantizée bien équilibrée, donc vous n’avez rien à régler pour démarrer. Retenez simplement la logique : plus de paramètres (32B vs 7B) améliore la qualité mais demande plus de mémoire ; une quantization plus agressive réduit la mémoire mais grignote un peu la précision. Le bon modèle est celui qui tient confortablement dans votre mémoire tout en restant assez gros pour la tâche.
Récapitulatif
Vous avez installé Ollama, compris ce que votre matériel peut faire tourner, téléchargé un modèle spécialisé dans le code, vérifié qu’il génère du code correct, et appris à gérer vos modèles. Le moteur d’inférence local est en place et opérationnel. Il ne reste plus qu’à lui donner un pilote intelligent : dans le tutoriel suivant, on installe l’agent Cline dans VS Code et on le branche sur ce modèle.
Aide-mémoire
| Commande | Rôle |
|---|---|
| curl -fsSL https://ollama.com/install.sh | sh | Installer Ollama (Linux) |
| ollama –version | Vérifier l’installation |
| ollama pull qwen2.5-coder:7b | Télécharger un modèle de code |
| ollama run qwen2.5-coder:7b | Lancer une session interactive |
| ollama list | Lister les modèles installés |
| ollama ps | Voir les modèles chargés en mémoire |
| ollama rm <modèle> | Supprimer un modèle |
| Port 11434 | API locale d’Ollama (utilisée par Cline) |
À vous de jouer
Défi : téléchargez deux tailles du même modèle (par exemple 3B et 7B), posez-leur la même question de code, et comparez la qualité des réponses et la vitesse. Laquelle convient le mieux à votre machine ?
Voir une piste de solution
Lancez ollama pull qwen2.5-coder:3b puis ollama pull qwen2.5-coder:7b. Posez à chacun « écris une fonction de validation d’adresse e-mail en Python ». Le 3B répondra plus vite mais avec parfois des approximations ; le 7B sera plus lent et plus fiable. Gardez celui qui offre le meilleur équilibre sur votre matériel, et supprimez l’autre avec ollama rm.
Tutoriels associés
- Installer Cline dans VS Code et le brancher sur Ollama — la suite directe.
- Choisir le bon modèle local pour coder — pour aller plus loin sur le choix du modèle.
Pour aller plus loin
- 🔝 Revenir au guide principal : Coder avec une IA en local : Cline, Ollama et les assistants souverains.
- Documentation officielle : ollama.com et la bibliothèque de modèles ollama.com/library.
FAQ
Ollama est-il gratuit ?
Oui, Ollama est gratuit et open source, et les modèles de la bibliothèque sont téléchargeables sans frais. Vous ne payez que votre matériel et son électricité.
Faut-il une carte graphique ?
Non. Une carte graphique avec de la VRAM accélère beaucoup l’inférence, mais Ollama fonctionne aussi sur le processeur. Un modèle 7B reste utilisable sur CPU.
Mes données partent-elles sur Internet ?
Non. Une fois le modèle téléchargé, tout se passe sur votre machine, hors-ligne. C’est l’argument central du local : confidentialité totale.
Quelle taille de modèle choisir ?
Commencez par la 7B (bon compromis). Descendez à 3B si votre machine est modeste, montez à 32B si vous avez 24 Go de VRAM.