Régression logistique binaire dans un mémoire SPSS : interprétation odds ratio et modèle 2026

tesify.team@gmail.com Avatar

5 min de lecture

Régression logistique binaire dans un mémoire SPSS : interprétation odds ratio et modèle 2026

Votre variable dépendante est binaire — réussite/échec, adopté/rejeté, présent/absent — et vous souhaitez identifier quels facteurs permettent de prédire cette issue ? La régression logistique binaire avec SPSS est le modèle statistique de référence pour cette situation, bien plus robuste qu’une régression linéaire appliquée à une variable dichotomique. Utilisée en épidémiologie, en sciences sociales, en gestion et en psychologie, elle est pourtant souvent mal interprétée dans les mémoires de master, notamment pour l’odds ratio et les indices d’ajustement du modèle.

Ce guide couvre l’ensemble du pipeline : vérification des conditions, procédure SPSS, lecture de chaque tableau de sortie, interprétation précise de l’Exp(B), et rédaction des résultats selon les normes APA 7.

Réponse rapide
La régression logistique binaire modélise la probabilité qu’un événement binaire se produise. Dans SPSS : Analyze → Regression → Binary Logistic. La colonne Exp(B) donne les odds ratios : OR > 1 signifie un facteur de risque, OR < 1 un facteur protecteur. La qualité du modèle s’évalue avec le R² de Nagelkerke (> 0,20 acceptable) et le test de Hosmer-Lemeshow (p > 0,05 souhaitable).

Fondements de la régression logistique binaire

La régression logistique appartient à la famille des modèles linéaires généralisés (GLM). Elle n’ajuste pas une droite sur les données brutes, mais modélise le logit — le logarithme du rapport des cotes — en fonction d’un ensemble de prédicteurs :

logit(p) = log(p / 1−p) = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ

Cette transformation logit (ou lien logistique) contraint les probabilités prédites entre 0 et 1, ce qu’une régression linéaire ordinaire ne peut garantir. Le modèle produit pour chaque prédicteur un coefficient β dont l’exponentielle donne directement l’odds ratio.

Logit, odds et probabilité : triangle fondamental

  • Probabilité (p) : proportion attendue de l’événement dans un groupe donné
  • Odds (cote) : p / (1 − p) — rapport entre la probabilité que l’événement se produise et celle qu’il ne se produise pas
  • Log odds (logit) : log naturel de l’odds — la variable que le modèle linéarise
  • Odds ratio (OR) : rapport de deux odds — mesure d’association entre un prédicteur et l’issue binaire

Quand l’utiliser dans un mémoire ?

La régression logistique binaire s’impose dans les situations suivantes :

  • Variable dépendante dichotomique (oui/non, succès/échec, malade/sain, 0/1)
  • Prédicteurs continus, catégoriels ou mixtes
  • Objectif de prédiction ou d’identification de facteurs associés
  • Contrôle de variables confondantes dans une analyse multivariée

Exemples dans différentes disciplines

Discipline Variable dépendante Prédicteurs typiques
Santé publique Diabète (oui/non) IMC, âge, sédentarité
Sciences de l’éducation Réussite à l’examen Heures de travail, méthode pédagogique
Marketing / Gestion Intention d’achat (oui/non) Prix, satisfaction, fidélité
Criminologie Récidive (oui/non) Âge, type de délit, suivi judiciaire

Conditions d’application

Contrairement à la régression linéaire, la régression logistique ne requiert pas la normalité ni l’homoscédasticité des résidus. Ses conditions sont :

1. Variable dépendante binaire

La variable Y doit avoir exactement deux modalités codées 0 et 1. SPSS prend la plus petite valeur comme événement de référence (code 0) et modélise la probabilité de la valeur la plus grande (code 1). Vérifiez toujours quel événement est modélisé — cela change l’interprétation des OR.

2. Taille d’échantillon suffisante

La règle empirique la plus répandue est de disposer d’au moins 10 à 20 événements par prédicteur (EPV — Events Per Variable). Si votre variable dépendante présente 40 cas « événement = 1 », ne dépassez pas 4 prédicteurs dans le modèle pour éviter le sur-ajustement.

3. Absence de multicolinéarité sévère

Vérifiez la matrice de corrélations entre prédicteurs continus. Des corrélations supérieures à r = 0,80 signalent une multicolinéarité problématique. Sous SPSS, activez l’option Collinearity diagnostics dans la procédure de régression linéaire (à titre indicatif, car l’output de régression logistique SPSS ne produit pas directement les VIF).

4. Linéarité du logit pour les prédicteurs continus

Testez la relation entre chaque prédicteur continu et le logit de Y via le test de Box-Tidwell : créez un terme d’interaction entre chaque prédicteur et son log naturel. Si ce terme est significatif, la relation n’est pas linéaire dans le logit — une transformation (log, racine carrée) peut être nécessaire.

5. Indépendance des observations

Chaque individu ne doit apparaître qu’une fois dans les données. Les données longitudinales ou groupées nécessitent des extensions (régression logistique à effets mixtes ou conditionnelle).

Procédure SPSS pas à pas

Vidéo : SPSS : La régression logistique binaire — Bibliothèque Paul-Émile-Boulet (UQAC)

  1. Analyze → Regression → Binary Logistic
  2. Glissez votre variable dichotomique dans Dependent
  3. Glissez vos prédicteurs dans Covariates
  4. Pour les prédicteurs catégoriels : cliquez sur Categorical et définissez la modalité de référence
  5. Choisissez la méthode : Enter (toutes variables forcées, recommandé pour tests d’hypothèses) ou Forward LR / Backward LR (sélection pas-à-pas, exploratoire)
  6. Cliquez sur Options : cochez Hosmer-Lemeshow goodness-of-fit, Classification plots, CI for exp(B)
  7. Cliquez sur Save : sauvegardez les probabilités prédites et les résidus standardisés pour vérifier les cas aberrants
  8. Cliquez OK

Lire et interpréter les tableaux de sortie

Block 0 vs Block 1

SPSS présente deux blocs. Block 0 (modèle nul) classe tous les individus dans la catégorie majoritaire — c’est le point de départ. Block 1 contient votre modèle avec les prédicteurs. Comparez les taux de classification pour mesurer le gain apporté par vos variables.

Omnibus Tests of Model Coefficients

Ce tableau présente un test du Chi² global. Un résultat significatif (p < 0,05) indique que le modèle avec prédicteurs est significativement meilleur que le modèle nul — condition minimale pour poursuivre l’interprétation.

Model Summary

Trois indices sont présentés : −2 Log likelihood (à minimiser), le R² de Cox & Snell et le R² de Nagelkerke. Ce dernier est le pseudo-R² de référence dans les mémoires, car sa valeur maximale est 1. Un R² de Nagelkerke entre 0,20 et 0,40 est considéré comme modéré à acceptable en sciences humaines.

Hosmer and Lemeshow Test

Ce test évalue l’adéquation globale du modèle (goodness-of-fit). Si p > 0,05, le modèle ne dévie pas significativement des données observées — c’est un signal favorable. Attention : un p > 0,05 ne prouve pas que le modèle est excellent, seulement qu’il n’est pas clairement inadéquat.

Variables in the Equation

C’est le tableau principal des résultats. Il contient :

  • B : coefficient de régression logistique (log odds)
  • S.E. : erreur standard de B
  • Wald : test de Wald (B/SE)² — analogue du test t en régression linéaire
  • Sig. : p-value associée au test de Wald
  • Exp(B) : l’odds ratio
  • IC 95% pour Exp(B) : intervalle de confiance — si cet IC ne contient pas 1, l’OR est significatif

Interpréter l’odds ratio (Exp(B))

L’odds ratio est l’indicateur central de la régression logistique. Son interprétation diffère selon le type de prédicteur :

Prédicteur continu

OR = 1,45 pour le prédicteur « âge » signifie : pour chaque augmentation d’un an, les chances que l’événement se produise sont multipliées par 1,45 (augmentation de 45%), toutes autres variables maintenues constantes.

Prédicteur dichotomique

OR = 2,30 pour le prédicteur « sexe masculin (ref: féminin) » signifie : les hommes ont des chances 2,30 fois plus élevées que les femmes de vivre l’événement.

Tableau de référence pour l’interprétation

Valeur de l’OR Interprétation Direction
OR = 1,00 Aucune association Neutre
OR > 1 Facteur de risque / association positive Augmente la probabilité de l’événement
OR < 1 Facteur protecteur / association négative Diminue la probabilité de l’événement
IC 95% contenant 1 Résultat non significatif p > 0,05
Mise en garde importante : L’OR n’est pas un risque relatif. Il ne peut être interprété comme tel que lorsque la fréquence de l’événement est rare (< 10%). Pour des événements fréquents, l’OR surestime la force de l’association. Dans ce cas, préférez la régression de Poisson modifiée (Zou, 2004) ou la méthode de Zhang & Yu (1998) pour estimer directement le risque relatif.

Évaluer l’ajustement du modèle

Plusieurs indicateurs complémentaires permettent d’évaluer la qualité du modèle :

Tableau de classification

SPSS présente le nombre d’individus correctement classés par le modèle (seuil par défaut : 0,50). La sensibilité mesure la proportion de vrais positifs correctement identifiés ; la spécificité mesure la proportion de vrais négatifs. Pour un mémoire, rapportez les deux plutôt que le seul taux de classification global, qui peut être trompeur avec des classes déséquilibrées.

Résidus et observations influentes

Examinez les résidus standardisés de Pearson et les statistiques de Cook. Des valeurs > 3 en valeur absolue pour les résidus signalent des observations atypiques à analyser. Ces diagnostics sont disponibles via les variables sauvegardées lors de l’étape Save.

Analyse univariée puis multivariée

La démarche standard en sciences de la santé et en épidémiologie — de plus en plus adoptée en sciences sociales — procède en deux étapes :

  1. Analyse univariée : tester chaque prédicteur individuellement. Les variables avec p < 0,20 ou ayant une justification théorique sont retenues pour le modèle multivarié.
  2. Analyse multivariée : intégrer simultanément toutes les variables retenues. Les OR ajustés (aOR) contrôlent l’effet des autres prédicteurs.

Cette démarche permet de repérer les variables confondantes : un prédicteur dont l’OR change de plus de 10% entre l’analyse univariée et multivariée est un confondeur potentiel que vous devez discuter dans votre mémoire.

Rédiger les résultats en APA 7

Une régression logistique binaire a été réalisée pour prédire la probabilité de réussite académique à partir de trois prédicteurs : heures de travail hebdomadaires, méthode pédagogique (cours magistral vs. classe inversée) et satisfaction envers l’enseignant. Le modèle global était significatif (χ²(3) = 27,8, p < .001). Le R² de Nagelkerke indiquait que le modèle expliquait 31% de la variance de l’issue (R²N = .31). Le test d’Hosmer-Lemeshow confirmait l’adéquation du modèle (χ²(8) = 6,43, p = .600). Le nombre d’heures de travail hebdomadaires était un prédicteur significatif (OR = 1,23, IC 95% [1,09 ; 1,38], p = .001), indiquant que chaque heure supplémentaire hebdomadaire multipliait les chances de réussite par 1,23.

Pour enrichir votre cadre méthodologique, consultez notre article sur l’ANOVA factorielle, l’ACP avec SPSS et notre guide général de la méthodologie de recherche.

Limites et alternatives

  • Régression logistique ordinale : si Y a plus de deux modalités ordonnées (faible/moyen/élevé)
  • Régression logistique multinomiale : si Y a plus de deux modalités non ordonnées
  • Régression de Cox : si le temps jusqu’à l’événement est une information pertinente (données de survie)
  • Régression logistique à effets mixtes : si les données sont groupées (élèves dans des classes, patients dans des hôpitaux)
Accélérez votre rédaction avec Tesify : La structuration de la section résultats d’une régression logistique — avec les tableaux au format APA, les interprétations des OR et les tests d’ajustement — est précisément ce que Tesify vous aide à formaliser efficacement.

Questions fréquentes

Quelle est la différence entre régression logistique et régression linéaire ?

La régression linéaire modélise une variable dépendante continue et suppose des résidus normalement distribués. La régression logistique modélise une variable dépendante binaire via une transformation logit et ne requiert pas ces conditions. Appliquer une régression linéaire à une variable 0/1 produit des probabilités prédites pouvant dépasser 0 ou 1 — une absurdité mathématique que la régression logistique évite structurellement.

Mon R² de Nagelkerke est de 0,12 : mon modèle est-il mauvais ?

Pas nécessairement. Les pseudo-R² en régression logistique sont systématiquement plus faibles qu’en régression linéaire. En sciences humaines et sociales, un R²N de 0,10 à 0,20 est fréquemment observé pour des phénomènes complexes. Évaluez la qualité du modèle via le test de Hosmer-Lemeshow, la sensibilité/spécificité et la significativité globale du Chi² — pas uniquement via le pseudo-R².

Puis-je utiliser des variables ordinales comme prédicteurs ?

Oui. Vous avez deux options : traiter la variable ordinale comme continue (si vous supposez une relation linéaire avec le logit) ou la déclarer comme catégorielle dans SPSS en cliquant sur le bouton Categorical (ce qui crée des variables indicatrices pour chaque modalité). La seconde approche est plus flexible mais consomme davantage de degrés de liberté.

Comment choisir entre méthode Enter et méthode Forward/Backward ?

Utilisez la méthode Enter (toutes les variables forcées) lorsque votre modèle est théoriquement justifié — c’est la norme pour les mémoires fondés sur des hypothèses a priori. Les méthodes pas-à-pas (Forward/Backward) sont exploratoires et non recommandées pour des tests d’hypothèses confirmatoires, car elles augmentent le risque d’erreur de type I et génèrent des modèles difficiles à répliquer.

Faut-il normaliser les prédicteurs continus avant la régression logistique ?

La normalisation n’est pas obligatoire pour la régression logistique (contrairement à certains algorithmes d’apprentissage automatique). Elle peut néanmoins faciliter la comparaison des coefficients β entre prédicteurs d’unités différentes. La centration-réduction (moyenne = 0, ET = 1) est courante dans les mémoires qui cherchent à comparer l’importance relative des prédicteurs.

L’OR de 0,62 signifie-t-il une réduction de 38% ou de 62% ?

Un OR de 0,62 signifie que les chances de l’événement sont multipliées par 0,62, soit une réduction de 38% (1 − 0,62 = 0,38). L’erreur fréquente consiste à dire « réduction de 62% », ce qui correspondrait à un OR de 0,38. Formulez toujours l’OR < 1 en termes de réduction : « les chances diminuent de 38% ».


Leave a Reply

Your email address will not be published. Required fields are marked *