Thursday, September 20, 2012

Exploration de données et modélisation

Les processus importants qui doivent être clairement délimitées pour l'extraction de données, l'analyse et de modélisation sont :


Modèle de données : les données seront disponibles et comment il coulera ?
Collecte de données : comment seront données recueillies aussi bien en termes physiques et technologiques ?
Les données recueillies : quelles données seront recueillies ?
Types de données : quels types de données seront recueillies ?
Mise en forme des données : comment données tiendra ?
L'entreposage de données : lieu où seront données ?
Exploration de données : comment seront nous récupérer les données de l'entrepôt ?
Modélisation de l'information : comment va nous créer des modèles et qu'en est-il de ?
Accès à l'information : comment va accéder les modèles de données et les rapports ?
Présentation & rapports : sur ce qui nous rendra ?


La plupart des entreprises veulent connaître les informations essentielles sur les clients à chaque point de contact, par exemple :


Durée de vie
X vendre et mise à niveau de potentiel
Coût d'acquisition
Préférences de canal
Fidélisation et rétention
Comportements d'achat


Une grande partie des données qu'ils ont auront différentes fréquences de changement, de rafraîchissement ou de présence. Il est conservé pour des périodes différentes. Dans certains cas, des données agrégées peuvent être conservées au lieu de données source. Tous ces facteurs une incidence sur les données de modélisation d'exercice et l'éventuelle modélisation logicielle requise.


Transformer les données en informations utiles, il faut :


Identifier le problème
Assemblage de la data set(s)
Construction de modèles
Vérifier les modèles
Interprétation des résultats
Automatisation de la livraison


Par la suite, des techniques et des outils de modélisation doivent être utilisés. Ceux-ci peuvent être divisés en deux groupes : théorie conduit et conduites des données.


La théorie conduite à la modélisation (vérification d'hypothèse) tente d'étayer ou de réfuter les idées préconçues. Outils de modélisation de théorie conduite obligent l'utilisateur à spécifier la plupart du modèle basé sur la connaissance préalable et ensuite des tests pour voir si le modèle est valide.


Données sur les outils de modélisation automatiquement créent le modèle basé sur les modèles qu'ils trouvent dans les données. Cela doit aussi être testés avant il peut être accepté comme valide.


La modélisation est un processus itératif avec le modèle final étant généralement une combinaison de connaissances préalables et nouvellement découvert des informations. Les outils ou les moteurs et les techniques sont les suivants :


Techniques statistiques
Données sur les outils
Corrélation
Analyse de groupement
tests t
Analyse factorielle
Analyse de la Variance
Arbres de décision CHAID (khi-carré automatique Interaction Detector)
Régression linéaire
Outils de visualisation
Régression logistique
Réseaux de neurones
Analyse discriminante

No comments:

Post a Comment