Conclusions
Ce qu’on a vu
J’espère avec ce livre avoir démystifié (un peu) la statistique bayésienne et les méthodes MCMC. J’espère aussi vous avoir donné les clés pour comprendre la différence entre les approches fréquentiste et bayésienne, à mieux lire la section « Méthodes » des articles recourant à la statistique bayésienne, et à acquérir une certaine autonomie dans la conduite d’analyses bayésiennes.
Tout au long du livre, nous avons abordé plusieurs étapes essentielles. Nous avons commencé par explorer les motivations qui justifient le recours à l’approche bayésienne. Nous avons ensuite introduit le théorème de Bayes et discuté de son interprétation. Nous avons découvert les méthodes de Monte Carlo par chaînes de Markov (MCMC), puis manipulé deux outils puissants, NIMBLE
et brms
, pour ajuster des modèles complexes. Une attention particulière a été portée au rôle des distributions a priori, qu’elles soient non informatives ou informatives, ainsi qu’à l’utilisation de ces approches dans des études de cas autour des GLM et GLMM.
La statistique bayésienne, en résumé
L’approche bayésienne offre de nombreux atouts. Elle permet de quantifier l’incertitude de manière cohérente à l’aide de la probabilité, elle autorise l’intégration explicite de connaissances a priori, et elle rend possible l’ajustement de modèles complexes via MCMC. De plus, les intervalles de crédibilité bayésiens sont plus intuitifs que les intervalles de confiance fréquentistes.
Certaines précautions sont toutefois de mise. La vérification de la convergence des chaînes MCMC est une étape cruciale, mais parfois laborieuse. Le choix des distributions a priori nécessite de prendre certaines précautions. L’adéquation du modèle aux données doit être systématiquement évaluée. Enfin, le coût computationnel n’est pas négligeable, en particulier pour les modèles les plus complexes et/ou les gros jeux de données.
Quelques conseils
Avant de terminer, je voudrais vous laisser avec quelques conseils inspirés de ma propre expérience. Ces conseils ne sont pas forcément spécifiques à la statistique bayésienne, et ils valent ce qu’ils valent.
Tout d’abord, prenez le temps de formuler clairement votre question. Cela paraît évident, mais cette étape est essentielle pour rester sur la bonne voie et faire les bons choix, par exemple celui de n’utiliser qu’un sous-ensemble des données pour répondre à une question spécifique.
Ensuite, réfléchissez d’abord à votre modèle, à le formaliser soit avec des équations, soit en le dessinant, soit avec des mots. Quelle est la nature de vos données, et donc, si vous êtes dans un cadre de régression, quelle famille de distributions utiliser comme on l’a vu dans les Chapitres 5 (normale) et 6 (bernoulli/binomiale et Poisson) ? Ne vous précipitez pas sur le clavier. Vérifiez que vous le comprenez en l’expliquant par exemple à un.e collègue.
A ce sujet, pensez à faire des simulations. Simuler des données à partir de votre modèle permet souvent de mieux le comprendre, comme dans les Chapitres 5 et 6. C’est une excellente manière de tester vos hypothèses et de diagnostiquer d’éventuels problèmes.
Choisissez l’environnement R
dans lequel vous êtes à l’aise ; j’ai illustré brms
et NIMBLE
(Chapitre 2) mais d’autres solutions existent.
Lors de l’ajustement du modèle, commencez simple. Un modèle avec tous les paramètres constants est une bonne base. Cela permet de s’assurer que les données sont bien lues et formatées, qu’il n’y a pas de données aberrantes (un zéro en trop, une virgule mal placée) ou que les a priori ne génèrent pas des comportements atypiques (voir Chapitre 4). Cette approche est particulièrement importante pour la statistique bayésienne pour s’assurer des bonnes performances et de la convergence de l’algorithme MCMC (Chapitre 2), tout en se faisant une idée du temps nécessaire à faire tourner l’analyse. Une fois que tous les voyants sont au vert, ajoutez de la complexité progressivement, des effets aléatoires par exemple (Chapitre 6), jusqu’à parvenir à la structure de modèle qui vous semble la plus adaptée pour répondre à votre question. Cela sous-entend sûrement que vous devrez faire plusieurs itérations des différentes étapes d’ajustement, de comparaison et de validation de vos modèles (Chapitres 5 et 6).
Pour approfondir ces aspects pratiques, je recommande la lecture des articles « Ten quick tips to get you started with Bayesian statistics » (Gimenez et al. 2025) et « Bayesian workflow » (Andrew Gelman et al. 2020).
En conclusion
Adoptez une approche pragmatique. Le choix de l’approche statistique (fréquentiste ou bayésienne) dépend de vos objectifs, qu’il s’agisse de la rapidité, de la complexité du modèle ou du type d’incertitude que vous souhaitez quantifier. Discutez de vos options avec des collègues plus expérimenté.e.s si besoin. Le bayésien n’est pas un dogme : c’est un outil puissant parmi d’autres dans votre boîte à outils.
Merci pour votre attention. N’hésitez pas à m’écrire si vous avez des questions ou si vous voudriez voir un aspect particulier développé dans une nouvelle édition de cet ouvrage. Et bonne découverte de la statistique bayésienne !
Pour approfondir ces aspects pratiques, je recommande la lecture de l’article « Ten quick tips to get you started with Bayesian statistics » (Gimenez et al. 2025).
En résumé, adoptez une approche pragmatique. Le choix de l’approche statistique (fréquentiste ou bayésienne) dépend de vos objectifs, qu’il s’agisse de la rapidité, de la complexité du modèle ou du type d’incertitude que vous souhaitez quantifier. Discutez de vos options avec des collègues plus expérimenté.e.s si besoin. Le bayésien n’est pas un dogme : c’est un outil puissant parmi d’autres dans votre boîte à outils.
Merci pour votre attention. N’hésitez pas à m’écrire si vous avez des questions ou si vous voudriez voir un aspect particulier développé dans une nouvelle édition de cet ouvrage. Et bonne découverte de la statistique bayésienne !