JOURNAL AFRICAIN de
STATISTIQUES APPLIQUEES

Théorie des Probabilités et Statistiques Appliquées
Méthods, Codes Informatiques, application aux données dans tous les domaines



Journal contents / Contenu du Journal

Volume 5, Numéro 1 Année 2018

Romain Lucas GLELE KAKAÏ, Matthews LAZARO, Micheline GBEHA,
Influence of Missing Value Imputations on the Performance of Canonical Correspondence Analysis: Ecological Applications, pp. 323-336
DOI : http://dx.doi.org/10.16929/ajas/323.218
ABSTRACT
ENGLISH The main objective of this study was to assess the influence of four imputation methods of missing values (mean, median, random forest and zero) on the performance of canonical correspondence analysis (CCA). Firstly, complete multivariate normal environmental data sets were simulated by taking into account sample size, number of variables, proportion of noise and correlation between variables. Thereafter, missingness in the complete data sets was artificially introduced at 0.1, 0.2 and 0.5 under three missing mechanisms: MCAR, MAR and NMAR. For each combination of factors, CCA was applied and constrained inertia was assessed between the complete data set and imputed data set. Results obtained showed that mean imputation recorded the best performance when data was MCAR and MAR. However, under NMAR, median imputation was the best preferred method. The study showed that beyond a missing value proportion of 30 \% the performance of imputation methods significantly reduced.

FRANCAIS L'objectif principal de cette étude est d'évaluer l'influence de quatre méthodes d'imputation de valeurs manquantes (imputation par moyenne, médiane, forêt aléatoire et zero) sur la performance de l'analyse des correspondances canoniques (ACC). Tout d'abord, des données complètes de distribution Normale multivariée ont été générées en prenant en compte la taille des échantillons, le nombre de variables, la proportion de bruit et la correlation entre les variables. Ensuite, des valeurs manquantes ont été artificiellement introduites dans les données environnementales (10, 30 et 50 \%) suivant trois mécanismes: MCAR, MAR et NMAR. Pour chaque combinaison des facteurs, l'ACC a été appliquée et l'inertie sous contrainte des données environnementales complètes et imputées a été calculée. Les résultats obtenus montrent que l'imputation par moyenne présentait la meilleure performance dans le cas de MCAR et MAR. Toutefois, sous un NMAR, l'imputation par médiane était la meilleure. L'étude a montré qu'à partir d'une proportion de valeurs manquantes de 30 \%, la performance des méthodes d'imputation décroit significativement.
Citer cet article
Romain Lucas GLELE KAKAÏ, Matthews LAZARO, Micheline GBEHA, (2018). Influence of Missing Value Imputations on the Performance of Canonical Correspondence Analysis: Ecological Applications. African Journal of Applied Statistics . Volume 5(1), pp 323-336
Doi : http://dx.doi.org/10.16929/ajas/323.218













JAS
AJAS
...

ok