Les données ainsi que le code permettant de reproduire les analyses présentées dans cette vignette sont disponibles aux liens suivants :
L’analyse de classes latentes à mesures répétées (ACL-MR) fait partie de la famille des modèles de mélange (mixture model; Collins et Lanza, 2010; Killian et al., 2019; McLachlan et Peel, 2000). Ces analyses utilisent une approche probabiliste pour capter l’hétérogénéité non directement observée au sein des populations, plutôt qu’une approche algorithmique et heuristique. Les ACL-MR se distinguent par leur utilisation de variables observées catégorielles pour générer des classes latentes (sous-groupes d’individus) qui, elles, sont aussi reconnues comme catégorielles (Lanza, 2016). Sur le plan de la méthode, la procédure utilisée pour réaliser des ACL-MR se base sur les paramètres de distribution et de covariations des variables observées à l’étude pour tester quelle solution (nombre de classes) convient le mieux aux données (Hagenaars et McCutcheon, 2002; Lanza et al., 2012). L’hypothèse centrale est que les relations entre les variables s’expliquent par la présence d’une variable latente (la composition des classes) non mesurée, que l’on tente d’estimer. Cette estimation se fait par un processus de calculs itératifs, dont le but est d’optimiser une fonction de vraisemblance (maximum likelihood function) afin que les données se répartissent en fonction d’une classification a priori inconnue. Les calculs s’amorcent en assumant que la variable latente catégorielle (l’appartenance aux classes) est manquante pour tous les sujets de l’échantillon, suivis d’estimations répétées des valeurs potentielles (valeurs de départ) des participants et de leur probabilité d’appartenir à chacune des classes (pour une définition plus approfondie voir Asparouhov et Muthén, 2019 et Nylund-Gibson et Choi, 2018).
Une fois la variable latente modélisée, elle peut ensuite être enregistrée pour réaliser de nouvelles analyses. Notamment, les classes latentes estimées peuvent servir à prédire une variable dépendante dite « distale » (distal outcome) ou être encore être utilisées comme variable connue pouvant être prédite par des variables indépendantes (prédicteurs/covariables). Dans ce type de modélisation, le modèle de mélange est nommé « modèle de mesure » (measurement model) et la relation entre le modèle de mesure (c.-à-d. la variable latente) et les variables externes au modèle de mesure est désignée comme étant le « modèle structurel » (structural model). Comme le modèle structurel traite les classes latentes comme une variable connue, qui peut prendre le rôle de variable dépendante ou indépendante selon les objectifs, on utilise des modèles connus de la famille des modèles linéaires généralisés pour les estimer (ANOVA, régression logistique multinomiale, etc.).
StepMix est une nouvelle librairie disponible dans les langages R (Cran) et Python (PyPI) qui permet de modéliser les modèles de mélange (avec ou sans variables externes) sous une interface à la fois modulable et facile d’utilisation. Bien que StepMix soit toujours en développement, la librairie permet présentement de modéliser de nombreux modèles de mélange en fonction de la distribution des variables observées (p. ex., catégorielles, normales, mixtes). Une deuxième spécificité majeure de StepMix est que la librairie permet de modéliser des modèles structurels en utilisant différentes « approches par étapes » (stepwise approaches).
L’objectif de cette vignette est d’introduire StepMix en comparant les résultats d’une ACL-MR réalisée avec StepMix et ceux obtenus avec la populaire librairie poLCA. Nous présenterons aussi par le biais d’un modèle structurel certaines des approches par étapes « à biais ajusté » offertes par StepMix.
Les analyses présentées reposent sur les données tirées d’un projet de recherche portant sur la transition de l’école au travail auprès de jeunes en situation de vulnérabilité (Dupéré et al., 2018; Thouin, 2022). L’ACL-MR est construite à partir de 16 variables observées mesurant chacune le statut d’occupation de 386 jeunes à un temps de mesure différent : 1) ni au travail ni en éducation (N), 2) au travail (T), 3) en éducation secondaire (ES) et 4) en éducation postsecondaire (EP). L’ACL-MR permettra ainsi de cerner différents parcours de transition de l’école au travail via une approche inductive. Une variable binaire mesurant l’appartenance à un groupe minoritaire (0=Non, 1=Oui) sera ensuite utilisée comme prédicteur. Nous comparerons les résultats du modèle structurel obtenus avec poLCA et ceux obtenus avec les différentes méthodes plus robustes de StepMix.
La décision du nombre de classes à retenir en ACL-MR doit à la fois tenir compte d’indices d’ajustement et de la théorie sur les concepts à l’étude. Le Tableau 1 présente les critères d’information d’Akaike (AIC) et bayésien (BIC) et la valeur du log-vraisemblance (log-likelihood; log-lik) des modèles ayant une à huit classes estimées avec poLCA et StepMix. Le modèle à huit classes ayant un nombre de paramètres plus élevé que le nombre d’observations (surparamétrisation du modèle), celui-ci n’est pas considéré dans l’analyse comparative. Les indices d’ajustements obtenus avec les deux librairies sont très similaires.
Quant au choix du modèle, il semble y avoir conflit entre les indices d’ajustement AIC et BIC : AIC indique que le modèle à sept classes est le modèle qui s’ajuste le mieux aux données alors que le modèle à six classes est choisi par le BIC. Cette situation est fréquente, car le BIC pénalise les modèles avec un nombre plus élevé de paramètres, dont le nombre de catégories de la variable latente (c.-à-d. classes latentes). Le BIC est ainsi généralement plus robuste au surajustement que l’indice AIC. En se fiant aussi à l’évaluation visuelle des graphiques des modèles de mesure, la solution à six classes semblait également mieux s’ajuster aux données, tout en correspondant mieux aux objectifs de recherche, soit de distinguer des sous-groupes théoriquement pertinents.
Indices d'ajustement des modèles selon le nombre de classes latentes | ||||||
Comparaison des modèles estimés dans poLCA et StepMix | ||||||
Nombre de classes latentes | poLCA | StepMix | ||||
---|---|---|---|---|---|---|
AIC | BIC | Llik | AIC | BIC | Llik | |
1 | 14934.63 | 15124.51 | -7419.31 | 14934.63 | 15124.51 | -7419.31 |
2 | 12778.04 | 13161.75 | -6292.02 | 12778.04 | 13161.75 | -6292.02 |
3 | 11818.19 | 12395.74 | -5763.09 | 11818.19 | 12395.74 | -5763.09 |
4 | 11192.37 | 11963.76 | -5401.18 | 11192.37 | 11963.76 | -5401.18 |
5 | 10916.39 | 11881.62 | -5214.20 | 10918.49 | 11883.71 | -5215.24 |
6 | 10649.06 | 11808.12 | -5031.53 | 10648.65 | 11807.71 | -5031.33 |
7 | 10499.49 | 11852.39 | -4907.75 | 10498.45 | 11851.35 | -4907.23 |
8 | 10403.42 | 11950.16 | -4810.71 | 10403.57 | 11950.30 | -4810.79 |
Llik: Log-likelihood |
En inspectant visuellement les graphiques de séquences (Graphiques 1 et 2), les deux librairies présentent 6 classes pouvant être interprétées de façon identique : 1) la première classe est constituée de jeunes ayant de plus fortes probabilités de transiter de façon précoce du secondaire au travail; 2) la deuxième classe représente une transition du secondaire au travail de façon ni précoce ni tardive; 3) la troisième est caractérisée par une transition tardive du secondaire au travail; 4) la quatrième est caractérisée par une transition précoce du secondaire aux études postsecondaires; 5) la cinquième représente une transition ni précoce ni tardive du secondaire aux études postsecondaires; 6) la sixième est constituée de jeunes ayant de plus fortes chances d’être ni au travail ni aux études.
La légère différence entre le modèle estimé par poLCA et celui estimé par StepMix se reflète un peu plus sur la prévalence de classes (c.-à-d. proportions des groupes dans la population). L’écart de prévalences est le plus important pour la classe caractérisée par une transition du secondaire au travail de façon ni précoce ni tardive (classe 2), où StepMix a estimé que la prévalence de cette classe (22,5 %; n=87) est environ 1,8 point de pourcentage plus élevé que celle estimée par poLCA (20,7 %; n=80)\(^a\). Statistiquement, il est possible de mesurer la similarité des deux classifications à l’aide de l’indice de Rand ajusté (Adjusted Rand Index; ARI), qui indique la proportion de cas qui se chevauchent dans la classification produite par deux modèles (Rand, 1971; Santos et Embrechts, 2009). Plus l’indice se rapproche de 1, plus les classifications sont similaires. Dans notre cas, l’ARI est de 0,91\(^a\), ce qui signifie qu’environ 91% des cas sont classés de la même manière dans les deux modèles.
\(^a\)Comme le modèle ne converge pas toujours exactement au même endroit avec poLCA, il est possible que vous obteniez des résultats légèrement différents. Les résultats de StepMix seront toujours identique.
## [1] "Indice de Rand"
## [1] 0.9733127
## [1] "Indice de Rand ajusté"
## [1] 0.9087011
Comme mentionné dans l’introduction, une fois le modèle de mesure estimé, on cherche généralement à utiliser les classes latentes obtenues comme une variable observée dans un modèle structurel. Ici, nous cherchons à prédire l’appartenance aux classes à l’aide d’un prédicteur, soit l’appartenance à une minorité ethnique.
Contrairement à StepMix, poLCA ne permet pas d’intégrer le prédicteur directement sans risquer de distordre le modèle de mesure (approche en une étape). On utilise donc la variable catégorielle (6 catégories) représentant l’appartenance aux classes latentes extraites du modèle estimé. La librairie nnet a ensuite été utilisée pour réaliser une régression logistique multinomiale. Le Tableau 2 présente les résultats de la régression logistique multinomiale, avec les jeunes vivant une transition précoce du secondaire au travail comme catégorie de référence. Les résultats indiquent que les jeunes qui sont issus de groupes minoritaires ont significativement plus de chances que les jeunes qui ne sont pas issus de groupes minoritaires d’appartenir à la classe caractérisée par une transition tardive du secondaire à l’emploi plutôt que d’appartenir à la classe caractérisée par une transition précoce du secondaire à l’emploi (B=1,11, z=3,02, p<0,05). Il s’agit d’ailleurs d’une forte relation, car le rapport de cotes est de 3,03, indiquant que les jeunes issus de groupes minoritaires ont trois fois plus de chances de vivre une transition tardive vers l’emploi. La régression logistique ne montre aucune autre relation significative (p>0,05).
Coeff. (B) | SE | Z | Sig. (p-value) | |
---|---|---|---|---|
Classe 2 | ||||
Intercept | -0.058 | 0.170 | -0.340 | 0.734 |
Minorité | -0.422 | 0.392 | -1.076 | 0.282 |
Classe 3 | ||||
Intercept | -0.895 | 0.220 | -4.063 | 0.000 |
Minorité | 1.109 | 0.367 | 3.022 | 0.003 |
Classe 4 | ||||
Intercept | -0.829 | 0.215 | -3.850 | 0.000 |
Minorité | -0.424 | 0.511 | -0.831 | 0.406 |
Classe 5 | ||||
Intercept | -0.413 | 0.188 | -2.194 | 0.028 |
Minorité | -0.067 | 0.400 | -0.168 | 0.867 |
Classe 6 | ||||
Intercept | -0.292 | 0.182 | -1.611 | 0.107 |
Minorité | -0.555 | 0.438 | -1.267 | 0.205 |
## [1] "Rapport de cotes"
## [1] 3.031195
Cependant, l’interprétation précédente est biaisée par l’utilisation d’une approche en 3 étapes dite « naïve », dans laquelle nous avons : 1) produit le modèle ACL-MR simple ; 2) assigné les individus à la classe à laquelle ils avaient la plus forte probabilité d’appartenance (c.-à-d. créer une variable à six catégories) ; 3) modélisé la relation entre la nouvelle variable créée et le prédicteur. Or, les modèles de mélange étant probabilistes, les individus peuvent avoir plusieurs probabilités non nulles d’appartenir à l’une ou l’autre des classes. Par exemple, le 11e répondant a une probabilité postérieure d’environ 0,25 d’appartenir à la première classe et une probabilité postérieure d’environ 0,75 d’appartenir à la classe caractérisée par de plus fortes probabilités d’être ni au travail ni aux études. Ainsi, en créant une nouvelle variable (étape 2), nous n’avons pas tenu compte de l’incertitude d’assignation aux classes et avons forcé les répondants à avoir une probabilité de 1,00 d’appartenir à l’une ou l’autre des six classes (assignation modale).
Pour pallier ce biais, diverses approches ont été développées par des statisticiens et rendues majoritairement disponibles dans les logiciels commerciaux comme Mplus et Latent GOLD. StepMix est la première librairie disponible en libre accès permettant d’avoir recours à ces différentes méthodes de correction de biais dites par étapes. Le Tableau 3 présente les coefficients de régression multinomiale obtenus avec une approche naïve en 3 étapes et avec 3 méthodes différentes par étapes robustes, présentement disponibles dans StepMix. Nous vous invitons à consulter les articles publiés par les chercheurs ayant originellement développés les différentes méthodes par étapes pour plus d’informations sur l’utilité et le fonctionnement de ces approches (Bakk et Kuha, 2018; Bandeen-Roche et al., 1997; Bolck et al., 2004; Vermunt, 2010). Cette vaste littérature permettra d’orienter les chercheurs intéressés dans l’adoption de l’approche la plus convenable selon le contexte d’étude (taille de l’échantillon, données manquantes, nombre de paramètres, etc.). Brièvement, la variation des coefficients dans l’exemple ci-présent suggère que l’interprétation des résultats peut être affectée par la méthode choisie, d’où l’importance d’avoir facilement accès à ces différentes méthodes.
Coefficients de régression obtenus à l'aide de différentes méthodes d'estimation par étapes corrigeant le biais | ||||
Classes | Méthodes | |||
---|---|---|---|---|
Naïve | BCH | ML | 2-step | |
Classe 2 | ||||
Intercept | 0.053 | 0.031 | 0.021 | 0.037 |
Minorité | -0.536 | -0.557 | -0.477 | -0.556 |
Classe 3 | ||||
Intercept | -0.848 | -0.857 | -0.934 | -0.915 |
Minorité | 1.191 | 1.181 | 1.136 | 1.088 |
Classe 4 | ||||
Intercept | -0.792 | -0.79 | -0.818 | -0.797 |
Minorité | -0.1 | -0.115 | -0.16 | -0.248 |
Classe 5 | ||||
Intercept | -0.45 | -0.435 | -0.364 | -0.369 |
Minorité | -0.306 | -0.327 | -0.377 | -0.354 |
Classe 6 | ||||
Intercept | -0.445 | -0.402 | -0.484 | -0.316 |
Minorité | -0.375 | -0.406 | -0.484 | -0.572 |
Naïve: Méthode en 3 étapes naïve / BCH: Méthode Bolck-Croon-Hagenaars / ML: Méthode corrigée par maximum de vraisemblance / 2-step: Méthode en deux étapes |
StepMix possède déjà de nombreux avantages qui la distinguent des autres librairies disponibles en libre accès. Par exemple, la librairie n’est pas dépendante de librairies tierces pour réaliser des modèles structurels. Dans l’exemple présenté ci-haut, le recours à la librairie nnet pour produire la régression logistique multinomiale entre le modèle ACL-MR de poLCA et la variable mesurant l’appartenance à un groupe ethnique minoritaire rend difficile et hasardeuse la comparaison des résultats du modèle avec l’approche « naïve » en 3 étapes obtenus avec poLCA et ceux obtenus avec StepMix. Un autre avantage similaire de StepMix est la possibilité de modéliser des groupes latents à partir de variables observées de plusieurs types de distributions, ce qui permet de réduire significativement le nombre de librairies utilisées et de faciliter l’apprentissage des chercheurs souhaitant utiliser ces modèles. Ainsi, StepMix permet présentement de réaliser des analyses de profils latents (LPA), sans avoir recours à d’autres logiciels ou librairies (p. ex., mclust). StepMix permet également de réaliser des modèles à partir de variables ayant différentes distributions, comme dans le cas où certaines variables seraient catégorielles et d’autres seraient de type intervalle/ratio et distribuées normalement. En pratique, cela évite de devoir introduire des variables factices, notamment dans le cas courant où des variables quantitatives sont transformées en variables catégorielles. Vous pouvez vous référer aux tutoriels présents sur la page GitHub de StepMix afin de découvrir ses nombreuses autres fonctionnalités (gestion de données manquantes, bootstrap, graphiques, etc.).
StepMix est une librairie toujours en développement. Les méthodes qu’elle offre ont été conçues par un groupe de développeurs issus de l’intelligence artificielle et de la science des données. Dans le futur, nous développerons également des modules et indices plus adaptés aux besoins des chercheurs en sciences sociales. Par exemple, StepMix offre présentement un module de bootstrap non paramétrique permettant l’inférence par le biais d’intervalles de confiance, très utilisés en apprentissage automatique\(^b\). Les p-values étant toujours très populaires en sciences sociales, elles seront intégrées dans une version future de la librairie afin de faciliter leur utilisation en contexte de recherche. Consultez les vignettes disponibles sur Cran et suivez la page GitHub pour rester au courant des développements futurs!
\(^b\) Pour l’instant, ce module est seulement disponible dans la version Python de StepMix, mais il sera prochainement disponible dans R.
Asparouhov, T. et Muthén, B. (2019). Random Starting Values and Multistage Optimization. Mplus. https://www.statmodel.com/download/StartsUpdate.pdf
Bakk, Z. et Kuha, J. (2018).Two-step estimation of models between latent classes and external variables. Psychometrika, 83, 871-892. https://doi.org/10.1007/s11336-017-9592-7
Bandeen-roche, K., Miglioretti, D. L., Zeger, S. L. et Rathouz, P. J. (1997). Latent variable regression for multiple discrete outcomes. Journal of the American Statistical Association, 92(440), 1375-1386. https://doi.org/10.1080/01621459.1997.10473658
Barban, N. et Billari, F. C. (2012). Classifying life course trajectories: A comparison of latent class and sequence analysis. Journal of the Royal Statistical Society. Series C (Applied Statistics), 61(5), 765-784.
Bolck, A., Croon, M. et Hagenaars, J. (2004). Estimating latent structure models with categorical variables: One-step versus three-step estimators. Political Analysis, 12, 3-27. https://doi.org/10.1093/pan/mph001
Collins, L. M., Graham, J. W., Rousculp, S. S. et Hansen, W. B. (1997). Heavy caffeine use and the beginning of the substance use onset process: An illustration of latent transition analysis. Dans The science of prevention: Methodological advances from alcohol and substance abuse research. (p. 79-99). American Psychological Association. https://doi.org/10.1037/10222-003
Collins, L. M. et Lanza, S. T. (2010). Latent class and latent transition analysis : with applications in the social behavioral, and health sciences. Wiley. https://doi.org/10.1002/9780470567333
Dupéré, V., Dion, E., Leventhal, T., Archambault, I., Crosnoe, R. et Janosz, M. (2018). High school dropout in proximal context: The triggering role of stressful life events. Child Development, 89(2), e107-e122. https://doi.org/10.1111/cdev.12792
Hagenaars, J. A. et McCutcheon, A. L. (2002). Applied latent class analysis. Cambridge University Press.
Han, Y., Liefbroer, A. C. et Elzinga, C. H. (2017). Comparing methods of classifying life courses: Sequence analysis and latent class analysis. Longitudinal and Life Course Studies, 8(4) 319-341.https://doi.org/10.14301/llcs.v8i4.409
Johnston, C. A., Crosnoe, R., Mernitz, S. E. et Pollitt, A. M. (2020). Two Methods for Studying the Developmental Significance of Family Structure Trajectories. Journal of Marriage and Family, 82(3), 1110-1123.https://doi.org/10.1111/jomf.12639
Killian, M. O., Cimino, A. N., Weller, B. E. et Hyun Seo, C. (2019, 2019/03/04). A Systematic Review of Latent Variable Mixture Modeling Research in Social Work Journals. Journal of Evidence-Based Social Work, 16(2), 192-210.https://doi.org/10.1080/23761407.2019.1577783
Lanza, S. T. (2016). Latent Class Analysis for Developmental Research. Child development perspectives, 10(1), 59-64.https://doi.org/10.1111/cdep.12163
Lanza, S. T., Bray, B. C. et Collins, L. M. (2012). An introduction to latent class and latent transition analysis (vol. 2).
McLachlan, G. J. et Peel, D. (2000). Finite mixture models. J. Wiley.http://catalogue.bnf.fr/ark:/12148/cb39038849q
Nylund-Gibson, K. et Choi, A. Y. (2018). Ten frequently asked questions about latent class analysis. Translational Issues in Psychological Science, 4(4), 440-461.https://doi.org/10.1037/tps0000176
Rand, W. M. (1971). Objective Criteria for the Evaluation of Clustering Methods. Journal of the American Statistical Association, 66(336), 846-850. https://doi.org/10.1080/01621459.1971.10482356
Santos, J. M. et Embrechts, M. (2009). On the Use of the Adjusted Rand Index as a Metric for Evaluating Supervised Classification. Dans C. Alippi, M. Polycarpou, C. Panayiotou et G. Ellinas (dir.), Artificial Neural Networks – ICANN 2009 (vol. 5769, p. 175-184). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-04277-5_18
Thouin, É., Courdi, C., Olivier, E., Dupéré, V., Denault, A.-S. et Lacourse, É. (2022). Introduction à l’analyse de séquence et illustration de son application en sciences sociales à partir de patrons de transitions de l’école au travail. Revue de psychoéducation, 51(2), 427–449. https://doi.org/10.7202/1093470ar
Thouin, É. (2022). La transition de l’école au travail chez les jeunes en situation de vulnérabilité scolaire ou sociale : examen des déterminants, des conséquences et des processus explicatifs [thèse de doctorat, Université de Montréal]. Papyrus. https://bib.umontreal.ca/citer/styles-bibliographiques/apa?tab=5248896
Vermunt, J. K. (2010). Latent class modeling with covariates: Two improved three-step approaches. Political Analysis, 18(4), 450-469. https://doi.org/10.1093/pan/mpq025