Carrière & Entretien

Questions d’entretien Data Scientist au Sénégal

17 min de lecture

📌 Pilier : Carrière Data et IA en Afrique de l’Ouest — guide complet (à créer)
Voisins : DevOps Engineer · Développeur Full-Stack · Négocier son salaire de dev en CFA et USD

Que fait un Data Scientist ?

Un Data Scientist analyse de grands volumes de données pour en extraire des modèles prédictifs ou des insights métier. Sur l’offre Data Scientist Senior scrapée en mai 2026 chez Alten Senegal, les missions couvrent l’analyse exploratoire de données métier (SQL sur un entrepôt), la construction de modèles de machine learning en Python (scikit-learn, parfois TensorFlow ou PyTorch pour les cas avancés), la mise en production de ces modèles via des pipelines reproductibles sur Google Cloud Platform, et la restitution claire des résultats à des décideurs non techniques. Vous travaillerez chez des cabinets de prestation comme Alten qui placent des consultants chez des donneurs d’ordre européens, chez des fintechs régionales (Wave, banques digitales), ou en remote pour des sociétés nord-américaines via des plateformes comme Andela ou Toptal.

Stack technique attendue à Dakar

Sur l’offre Data Scientist Senior observée (mai 2026, quatre technologies détectées par le scraper), la stack complète attendue dépasse ce que le scraper a pu extraire des mots-clés. Voici les éléments attendus en priorité, calibrés sur le marché ouest-africain :

  • Python — langage central, maîtrise demandée à tous les niveaux. Voir Python pour PME : guide pratique data, scripting, automatisation.
  • SQL — requêtage avancé sur entrepôts (BigQuery, Snowflake, PostgreSQL) ; au cœur de tous les entretiens.
  • Pandas et NumPy — manipulation et nettoyage de données ; voir Analyse exploratoire avec pandas et matplotlib et Nettoyer un jeu de données réel avec pandas et missingno.
  • scikit-learn — bibliothèque ML de base, à pratiquer pour la classification, la régression, le clustering.
  • GCP ou AWS — un cloud à connaître pour la production : BigQuery, Vertex AI ou SageMaker.
  • Git et notebooks Jupyter — outils du quotidien ; le notebook reste l’environnement de l’exploration, Git le passage en production.
  • Méthodologie Agile — comprendre les sprints et les revues, pratique courante chez les cabinets de prestation.

Pour aller plus loin sur la stack complète : Sciences de données pour développeurs : la stack pratique 2026. Si vous débutez, commencez par Python + SQL, puis pandas, et seulement après scikit-learn. Le cloud et MLOps s’ajoutent au niveau confirmé.

Salaire moyen au Sénégal pour ce poste

Sur l’offre Data Scientist Senior observée chez Alten Senegal, le salaire n’était pas affiché — pratique courante sur ce type d’offre cabinet. La data est la niche la mieux payée du marché tech sénégalais en 2025-2026, avec un écart fort entre Data Analyst (souvent BAC+3, marché saturé) et ML Engineer (rare, payé à prix d’or, souvent en télétravail pour des sociétés étrangères). Croisé avec les sources Talent.com, Glassdoor, Talent2Africa et Africashore :

Niveau Salaire brut mensuel (XOF) ≈ EUR indicatif
Junior (0-2 ans) 280 000 – 400 000 – 580 000 425 – 610 – 885 €
Confirmé (2-5 ans) 500 000 – 750 000 – 1 100 000 760 – 1 145 – 1 675 €
Senior (5+ ans) 900 000 – 1 300 000 – 2 000 000 1 370 – 1 980 – 3 050 €
Lead / Architecte (8+ ans) 1 400 000 – 2 000 000 – 3 200 000 2 135 – 3 050 – 4 880 €

En freelance, le TJM d’un profil confirmé tourne autour de 100 000 – 170 000 – 300 000 FCFA. Les missions en télétravail international pour des fintechs ou des éditeurs nord-américains peuvent doubler ces chiffres, payés en USD ou EUR — pratique courante pour les seniors qui ont une présence GitHub solide et un anglais oral confortable. Pour cadrer la négociation : Négocier son salaire de dev en CFA et USD — guide Afrique de l’Ouest.

Questions d’entretien & réponses

Question 1 : Quelle est la différence entre apprentissage supervisé et apprentissage non supervisé ?

Ce que cherche vraiment le recruteur

Question fondamentale qui filtre les candidats. Le recruteur vérifie que vous maîtrisez le vocabulaire de base du machine learning et que vous savez choisir le bon paradigme selon le problème métier. Il guette une réponse qui distingue clairement les deux familles, donne un exemple concret par famille (classification ou régression pour le supervisé, clustering ou réduction de dimension pour le non supervisé), et mentionne le cas hybride de l’apprentissage semi-supervisé.

Exemple de réponse

L’apprentissage supervisé travaille à partir de données étiquetées : chaque exemple d’entraînement comporte les caractéristiques et la réponse attendue, et le modèle apprend à prédire la réponse sur de nouveaux exemples. C’est le cas de la classification (prédire si un client va churn ou non) et de la régression (prédire le montant d’une transaction). L’apprentissage non supervisé travaille sur des données sans étiquettes : le modèle découvre lui-même la structure. C’est le cas du clustering (regrouper les clients en segments avec K-Means ou DBSCAN), de la réduction de dimension (PCA, t-SNE pour visualiser de la haute dimension) et de la détection d’anomalies. Entre les deux, l’apprentissage semi-supervisé exploite un petit jeu étiqueté pour propager vers un grand jeu non étiqueté — utile quand l’annotation coûte cher, ce qui est fréquent dans le contexte africain où peu de jeux de données métier sont étiquetés.

Question 2 : Expliquez le concept d’overfitting et comment vous le détectez.

Ce que cherche vraiment le recruteur

Notion centrale du ML, omniprésente en entretien. Le recruteur cherche à voir si vous avez une expérience pratique, pas seulement théorique. Il guette une réponse qui mentionne l’écart entre métrique d’entraînement et métrique de validation, la validation croisée comme méthode de détection, et plusieurs techniques de mitigation adaptées au type de modèle.

Exemple de réponse

L’overfitting survient quand un modèle apprend trop précisément les particularités du jeu d’entraînement, y compris le bruit, et perd sa capacité à généraliser sur de nouvelles données. La détection se fait en comparant la métrique sur l’entraînement et sur un jeu de validation séparé : si la performance d’entraînement est très bonne mais celle de validation médiocre, c’est de l’overfitting. Une courbe d’apprentissage qui montre l’erreur en fonction du nombre d’exemples confirme le diagnostic. Pour la mitigation, je dispose de plusieurs leviers selon le modèle. Pour les arbres et les forêts : limiter la profondeur, le nombre d’arbres, ajouter du min_samples_leaf. Pour les réseaux de neurones : dropout, weight decay, arrêt anticipé sur la métrique de validation. Pour la régression : régularisation L1 (Lasso) ou L2 (Ridge). En amont, augmenter le volume de données d’entraînement ou supprimer les features bruitées résout souvent le problème à la racine. La validation croisée à 5 plis est mon protocole par défaut pour estimer l’erreur de généralisation.

Question 3 : Vous devez prédire le risque de défaut de paiement sur un portefeuille de crédit microfinance. Comment construisez-vous votre modèle de bout en bout ?

Ce que cherche vraiment le recruteur

Mise en situation qui balaie tout le pipeline ML. Le recruteur évalue votre méthode : compréhension métier, collecte des données, nettoyage, feature engineering, choix de modèle, évaluation, mise en production, surveillance. Une bonne réponse suit cette séquence sans en oublier d’étape, et mentionne le déséquilibre de classes typique de ce cas (le défaut est rare donc la précision brute trompe).

Exemple de réponse

Je commence par une réunion avec l’équipe métier pour comprendre la définition exacte du défaut (90 jours d’impayé ? Restructuration ?) et l’horizon de prédiction (3 mois, 12 mois). Je collecte les données historiques : caractéristiques du client (âge, revenu, secteur), historique de paiement, montant et durée du prêt. Je nettoie les valeurs manquantes en distinguant celles qui sont aléatoires (à imputer) de celles qui portent un signal (à transformer en variable indicatrice). Je crée des features dérivées : ratio dette/revenu, ancienneté du compte, nombre d’impayés passés. Pour la modélisation, je teste d’abord une régression logistique (interprétable, exigée par la conformité bancaire), puis un XGBoost ou LightGBM pour comparer. Le déséquilibre de classes (par exemple 5 % de défauts) impose d’utiliser des poids de classes ou un sous-échantillonnage, et de mesurer en AUC, F1 ou recall plutôt qu’en précision brute. Je calibre le seuil de décision selon le coût métier d’un faux positif (refus à tort) versus un faux négatif (défaut accepté). En production, je déploie le modèle derrière une API, je trace les prédictions, et je mets en place une surveillance du drift : si la distribution des features ou la performance se dégrade, je déclenche un ré-entraînement.

Question 4 : Comment écririez-vous une requête SQL pour calculer la médiane par groupe dans PostgreSQL ?

Ce que cherche vraiment le recruteur

Question technique précise qui sépare ceux qui pratiquent SQL au quotidien de ceux qui le connaissent en théorie. La médiane n’a pas de fonction native standard dans SQL ; le recruteur veut voir si vous connaissez PERCENTILE_CONT, l’usage de WITHIN GROUP, ou les solutions alternatives via fenêtres. Une réponse approximative trahit un usage superficiel.

Exemple de réponse

Sur PostgreSQL, j’utilise la fonction d’agrégation par ordre PERCENTILE_CONT(0.5) avec WITHIN GROUP (ORDER BY colonne). Par exemple, pour calculer la médiane du salaire par département :

SELECT
  departement,
  PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY salaire) AS mediane_salaire
FROM employes
GROUP BY departement;

PERCENTILE_CONT interpole entre les valeurs encadrant la médiane si le nombre d’observations est pair, alors que PERCENTILE_DISC retourne la valeur immédiatement inférieure (médiane discrète). Pour un calcul comparable sur d’autres dialectes : SQL Server expose aussi PERCENTILE_CONT, et MariaDB le supporte nativement (fonctions MEDIAN() et PERCENTILE_CONT() côté MariaDB). MySQL 8 en revanche n’implémente pas PERCENTILE_CONT à ce jour — l’émulation se fait avec ROW_NUMBER() et COUNT() OVER sur une fonction fenêtre, puis une jointure sur la ligne médiane. Verbeux, mais portable et utile à connaître pour montrer en entretien qu’on sait contourner une absence d’API standard.

Question 5 : Présentez les résultats d’un modèle qui n’a pas atteint l’objectif métier à un client non technique. Comment procédez-vous ?

Ce que cherche vraiment le recruteur

Question comportementale au format STAR qui teste votre maturité de restitution. Le recruteur évalue votre capacité à communiquer un échec avec honnêteté tout en proposant un chemin de sortie, sans masquer les limites du modèle ni démoraliser l’interlocuteur. Une bonne réponse cite un cas réel, montre la structure de la présentation et son issue.

Exemple de réponse

Sur un projet précédent, un modèle de prédiction de churn devait atteindre 75 % de recall sur la classe positive, et n’a atteint que 62 % après deux itérations. Plutôt que de retarder la présentation au client, j’ai préparé un slide en trois temps. D’abord, le résultat factuel : la métrique cible, la métrique atteinte, et le coût métier de l’écart en clients potentiellement perdus. Ensuite, l’explication : qualité limitée d’une feature critique (historique d’interactions tronqué à six mois alors que le pattern de churn s’observe sur douze), absence d’étiquetage fiable sur 15 % des cas ambigus. Enfin, un plan en deux options chiffrées : option 1, élargir la fenêtre d’historique au prix d’un délai de deux mois, gain estimé à 8 points de recall ; option 2, accepter le modèle actuel et investir le delta dans une campagne de rétention élargie. Le client a choisi l’option 2 pour ne pas retarder le go-live, en gardant l’option 1 pour la version 2. La transparence sur les limites a renforcé la confiance plutôt que l’inverse.

Question 6 : Vous découvrez en production qu’un modèle prédit avec un biais systématique défavorable à un groupe de clients. Quelles sont vos actions ?

Ce que cherche vraiment le recruteur

Question éthique et technique combinée. Le recruteur veut voir si vous prenez la question du biais au sérieux, si vous connaissez les outils d’audit, et si vous savez articuler une réponse opérationnelle. Une bonne réponse mentionne la suspension du modèle si l’impact est grave, l’audit avec des métriques d’équité chiffrées, et la remontée vers les parties prenantes.

Exemple de réponse

Première action : qualifier l’ampleur du biais et son impact métier. Je calcule des métriques d’équité — différence de taux de faux positifs, différence de taux d’approbation, statistical parity — entre les groupes concernés, en utilisant une bibliothèque comme Fairlearn ou AIF360. Si l’impact est important (par exemple sur un crédit ou une décision juridique), je remonte immédiatement au manager pour décision de suspension du modèle, en privilégiant un fallback manuel le temps de l’enquête. J’investigue ensuite la cause : feature corrélée à un attribut sensible (code postal proxy d’origine ethnique), déséquilibre dans le jeu d’entraînement, ou choix d’optimisation sans contrainte d’équité. Selon le diagnostic, je retire la feature problématique, je rééchantillonne le jeu, ou j’introduis une contrainte d’équité dans l’objectif. Je documente l’incident, les actions prises et la métrique d’équité post-correction. La gouvernance des modèles est un sujet qui prend du poids en 2026 : un Data Scientist senior doit savoir y répondre concrètement, pas seulement théoriquement.

Question 7 : Comment travaillez-vous avec un client basé à Paris ou Londres quand vous êtes à Dakar, en termes d’outils et de méthodes ?

Ce que cherche vraiment le recruteur

Question locale Afrique de l’Ouest spécifique aux profils confirmés qui travaillent fréquemment avec des donneurs d’ordre européens. Le recruteur évalue votre capacité à organiser un travail asynchrone, à documenter vos analyses pour qu’elles soient reprenables, et à gérer le décalage horaire minime (une à deux heures). Il guette une réponse pragmatique sur les outils concrets et le rythme de communication.

Exemple de réponse

Le décalage Dakar-Paris est d’une à deux heures selon la saison, ce qui laisse une large fenêtre de chevauchement productif chaque jour. J’organise les semaines en distinguant deux modes. Mode synchrone : daily de 30 minutes le matin pour aligner sur les priorités, plus une à deux réunions de revue de résultats par semaine, en visio avec partage d’écran sur les notebooks ou les dashboards. Mode asynchrone : tout le reste — code dans Git avec pull requests revues sous 24 h, analyses livrées dans des notebooks documentés et reproductibles (versions de packages figées via pyproject.toml ou un lockfile conda), résultats expérimentaux trackés dans MLflow ou un simple tableau partagé. La discipline de documentation écrite est plus importante qu’en présentiel : un notebook qui ne s’exécute pas chez le client est un livrable raté. J’écris les commentaires et les conclusions en français professionnel, l’anglais pour la documentation technique destinée à un public international, sans accent forcé dans aucune des deux langues.

Difficulté de l’entretien

8 / 10 — Difficile

Le process Data Scientist se déroule en quatre à cinq étapes : pré-qualification RH, entretien technique métier d’une heure (mathématiques, statistiques, machine learning), test à la maison sur un jeu de données réel (4 à 6 heures, analyse exploratoire et modèle), entretien de restitution du test technique avec un Data Lead, et entretien final avec le manager ou un client. Pour les cabinets de prestation et les sociétés à clientèle internationale, l’anglais oral est presque toujours vérifié. Le live-coding SQL ou Python sur un notebook partagé est devenu standard. La durée totale du process tourne autour de trois semaines.

Difficulté du métier

7 / 10 — Difficile

Le métier combine trois compétences difficiles à maîtriser ensemble : analyse statistique rigoureuse, codage Python propre, et communication non technique pertinente. Le quotidien alterne des phases d’exploration (libres mais sans garantie de résultat utile) et des phases d’industrialisation (livrables clairs, contraintes de production). La veille techno est dense — frameworks ML, MLOps, cloud, LLMs depuis 2023 — et impose plusieurs heures de lecture par semaine. Le risque opérationnel d’un modèle mal calibré est important : une prédiction biaisée ou une recommandation erronée peut avoir un impact métier ou réglementaire significatif. L’autonomie attendue progresse vite : un confirmé porte un projet de bout en bout, un senior architecture les pipelines et encadre des juniors.

Pré-requis pour ce poste

  • Diplôme Bac+5 en mathématiques, statistiques, informatique ou data ; certains seniors viennent d’un Bac+3 + bootcamp + portfolio solide.
  • Expérience minimale typique : 0 à 2 ans (junior, souvent en stage long ou alternance), 3 à 5 ans (confirmé), 5+ ans (senior).
  • Maîtrise solide de Python avec pandas, NumPy, scikit-learn.
  • SQL avancé : jointures, fonctions fenêtres, requêtes d’agrégation complexes.
  • Bases solides en statistiques : tests d’hypothèses, régression, distributions, intervalles de confiance.
  • Connaissance d’au moins un cloud (GCP avec BigQuery et Vertex AI, ou AWS avec S3 et SageMaker).
  • Pratique de Git, notebooks Jupyter ou JupyterLab.
  • Anglais technique lu et écrit : documentation, articles de recherche, GitHub.
  • Anglais professionnel oral pour les missions internationales (de plus en plus fréquentes).
  • Certification optionnelle qui pèse : Google Cloud Professional Data Engineer ou AWS Certified Machine Learning Engineer – Associate. (Note : la précédente AWS Certified Machine Learning – Specialty / MLS-C01 est retirée au 31 mars 2026 et remplacée par la voie Engineer Associate ; ceux qui l’ont déjà passée gardent la certification 3 ans à compter de la date d’obtention.)

Pour aller plus loin

Si vous visez aussi un poste de DevOps Engineer (chemin courant pour les Data Scientists qui veulent industrialiser leurs modèles eux-mêmes) ou de Développeur Full-Stack, notre bibliothèque d’articles entretien aide à comparer les passerelles.

Pour solidifier votre stack data, le tutoriel Sciences de données pour développeurs : la stack pratique 2026 couvre l’écosystème complet, et Analyse exploratoire avec pandas et matplotlib prépare directement les premières heures d’un test technique à la maison. Pour la mise en production de modèles : Kubeflow Pipelines : orchestrer un workflow ML sur Kubernetes.

→ Voir tous les articles du cluster (à créer)

Références techniques (sources primaires vérifiées)

Autres entretiens techniques

Sponsoriser ce contenu

Cet emplacement est à vous

Position premium en fin d'article — c'est l'instant où les lecteurs sont le plus engagés. Réservez cet espace pour votre marque, votre formation ou votre offre.

Recevoir nos tarifs
Publicité