Parfois, les chercheurs et les analystes essaient simplement de trouver des façons de décrire des tendances cachées dans les données. Les descriptions des modèles et des tendances servent à expliquer ou vérifier un fait. Par exemple : « ceux qui ont le plus de diplômes sont les plus susceptibles d’avoir un poste à responsabilité. ».
L’estimation :
L’estimation est similaire à la classification, sauf que la variable cible est numérique plutôt que catégorique. Les modèles sont construits en utilisant des données, qui fournissent la valeur de la variable cible, ainsi que les « prédicteurs ». Par exemple : « l’estimation de la pression artérielle d’un patient d’hôpital, basée sur son âge, son sexe, son indice de masse corporelle, et le taux de sodium. La relation entre la pression artérielle et le prédicteur variable de l’ensemble de formation nous donnerait un modèle d’estimation. Nous pouvons alors appliquer ce modèle à de nouveaux cas.
La prédiction:
La prédiction est semblable à la classification et l’estimation, sauf que pour la prévision, les résultats se situent dans l’avenir. Exemples de tâches de prévision appliquée au marketing : « Prédire le prix d’un stock de trois mois dans le futur »
La classification :
Supposons qu’un décideur veuille classer ses employés par tranches de revenu, ou n’importe quelle autre caractéristique associée à cette personne, comme l’âge, le sexe et la profession. Cette tâche est une tâche de classification.
Le clustering :
Le Clustering désigne le regroupement des données, des observations ou des cas dans des classes d’objets similaires. Un cluster maximise la similarité des objets de du même cluster et minimise la similarité des objets de cluster différents. En effet, il n’y a pas de variable cible pour le clustering. La tâche de clustering ne cherche pas à classer, estimer, ou prédire la valeur d’une variable cible. Mais plutôt à segmenter l’ensemble des données en sous-groupes relativement homogènes à l’aide de mesures de distances.
L’association :
La recherche de règles d’association est la tâche la plus intéressante du data mining. C’est également celle qui est la plus répandue dans le monde des affaires, notamment en marketing pour l’analyse du panier de consommation. La recherche de règles d’association cherche à découvrir les règles de quantification ou de relation entre deux ou plusieurs attributs. Les règles d’association sont de la forme «Si antécédent, puis conséquente », avec une mesure confiance associée à la règle. La recherche de règles d’associations dans une grande base de données permet de découvrir des règles cachées utiles pour la prise de décision.
Exemple de règle célèbre : lorsqu’un homme achète des couches pour bébés, il achète 2 packs de bières dans 65% des cas. Il serait alors intéressant pour le gestionnaire d’adapter ses promotions à ces nouvelles règles.