outils d`entrepôt de données et de data mining, il est facile d`extraire et d`analyser des volumes massifs de l`information, mais la qualité de l`analyse est aussi bonne que la qualité des données. La première étape de tout projet d`entreposage de l`étude de recherche ou de données doit être une évaluation de la qualité des données qui vont dans le projet. Mesures pour l`exhaustivité, la validité et la cohérence tout facteur dans cette évaluation. Pour élaborer des paramètres de la qualité des données, vous devez suivre certaines étapes.
Élaborer un cadre de mesure de la qualité des données. Créer un espace dans chaque base de données où les résultats des contrôles de qualité peuvent être stockés. Développer des rapports ou des tableaux de bord à partir de ces données.
Mesurer l`exhaustivité des données. Choisissez des éléments clés dans chaque base de données et de compter le pourcentage de nulls, les champs vides ou des valeurs représentant des données indisponibles ou inconnus.
Mesurer les pourcentages de valeurs autorisées. Lorsqu`un champ a un certain nombre de valeurs de code prédéfinis, mesurer la distribution de ces valeurs par rapport au nombre de valeurs incorrectes et manquantes. Analyser ces distributions afin de déterminer si certains codes apparaissent trop fréquemment. Si oui, cette valeur peut devoir être subdivisé pour fournir une meilleure description. Par exemple, si les réponses sont en noir, blanc et couleur et 98% des réponses sont de couleur, il pourrait être judicieux de remplacer la couleur rouge, bleu ou vert.
Vérifiez pour des valeurs raisonnables. mesures numériques apparaissent habituellement dans une plage autorisée. Par exemple, une température météo mesure quotidienne Fahrenheit apparaît généralement comme une valeur d`environ -40 à 120. Toute valeur en dehors de cette plage est probablement pas valide.
Comparer les valeurs dans le même enregistrement de cohérence. Si la température était de 90 degrés Fahrenheit et la valeur de la précipitation de la neige, l`une des deux valeurs est probablement erronée.
Vérifier la cohérence entre les documents connexes. Utiliser les contrôles de cohérence similaires entre les enregistrements dans les relations parent-enfant et dans de multiples entrées enfants. Parents et enfants sont les relations liens entre les éléments de base de données. Par exemple, dans un certain nombre d`éléments liés au temps, si un ensemble de températures de la liste des mesures de température horaire augmente régulièrement de 50 à 70 degrés pendant toute la matinée, mais la lecture 10 du matin est -20, cette valeur est probablement dans l`erreur.
Créer des rapports, des tableaux de bord ou des notifications sur la base des données recueillies. Résumer par groupe organisationnel, fournisseur ou type de client avec des capacités de forer vers le bas pour les éléments de données spécifiques. Analyser les données pour déterminer où les erreurs se produisent et ce qui peut être fait pour améliorer la qualité des données.
Améliorer la qualité des données. Réviser les règles de gestion, logiciel de réparation de rejeter de mauvaises données, informer les clients des problèmes de données et de trouver des moyens de récompenser les initiatives de qualité. Surveiller ces mesures dans le temps.
Conseils & Avertissements
- La plupart des bases de données relationnelles offrent des moyens de rejeter des données non valides à l`aide de contraintes et les clés étrangères. Utilisez ces contraintes pour faire respecter la qualité des données.