En règle générale, si moins de 5% des observations sont manquantes, les données manquantes peuvent simplement être supprimées sans ramifications significatives (3).
- Quel pourcentage de données manquantes est acceptable?
- Combien de données manquantes sont acceptables pour une seule imputation?
- Comment gérez-vous 50% de données manquantes?
Quel pourcentage de données manquantes est acceptable?
Combien de données manquent? Le pourcentage global de données manquant est important. Généralement, si moins de 5% des valeurs sont manquantes, il est acceptable de les ignorer (réf).
Combien de données manquantes sont acceptables pour une seule imputation?
Scheffer (2002) suggère que des cas complets peuvent être utilisés si pas plus de 6% des données sont manquantes, une seule imputation si pas plus de 10% des données sont manquantes et des procédures plus complexes telles que l'imputation multiple si entre 10% et 25% des données manquent.
Comment gérez-vous 50% de données manquantes?
Exécuter des modèles prédictifs qui imputent les données manquantes. Cela doit être fait conjointement avec une sorte de schéma de validation croisée afin d'éviter les fuites. Cela peut être très efficace et peut aider avec le modèle final. Utilisez le nombre de valeurs manquantes dans une ligne donnée pour créer une nouvelle fonctionnalité d'ingénierie.