- Centres mobiles : autre nom de la méthode des nuées
dynamiques(voir ce nom).
- Ciblage : synonyme de score, permet de repérer les spécificités
d'un client par rapport à un but commercial.
- Cible : rôle joué dans un modèle par la variable
dont on veut expliquer ou prédire les valeurs.
- Classification ascendante hiérarchique (CAH) : méthode
de création de typologies qui agrège, à chaque étape,
les individus ou les groupes d'individus les plus proches. Les emboîtements
successifs se poursuivent ainsi jusqu'à agréger toute la population.
On choisit ensuite la partition (ensemble de classes ainsi constituées)
qui propose le meilleur rapport homogénéité interne des
groupes / hétérogénéité des groupes entre
eux.
- Clustering : mot anglais qui recouvre l'ensemble des techniques
de segmentation (création de typologies).
- Colinéarité : qualité de deux variables qui
apportent une information semblable ou proche. Cause de détérioration
de nombreux modèles.
- Concentration (courbe de) : synonyme de lift chart (voir ce mot).
- Confusion (matrice de) : tableau de répartition (souvent
en pourcentages) des individus observés, selon la valeur qu'on leur
connaît pour la variable cible et selon la valeur prédite par
le modèle. On repère ainsi le taux d'erreur, ou taux de confusion
du modèle.
Exemple de matrice de confusion :
| Clients... |
... prédits bons |
... prédits mauvais |
| ... réellement bons |
20,60 % |
4,44 % |
| ... réellement mauvais |
13,84 % |
61,12 % |
Le modèle prédit à juste titre que 61,12 % des clients
sont mauvais (il en "oublie" 13,84 % qu'il prédit comme étant
bons). Et 20,60 % des clients sont réellement bons, et identifiés
comme tels par le modèle 4,44 % des clients sont déclarés
mauvais alors qu'ils sont bons).
Ici, le taux de confusion s'établit à 13,84 + 4,44 = 18,28 %
(somme des cases rouges).
- Continue : se dit d'une variable qui peut prendre une "infinité"
de modalités (par opposition à discrète). Un âge,
une somme d'argent, un coefficient de bonus/malus sont souvent considérés
comme continus. Synonyme : quantitatif.
- Corrélation : mesure de la liaison entre deux variables.
On parle de corrélation entre une cause et son effet, ou entre deux
variables qui apportent la même information.
- Corrélation linéaire (coefficient de) : ou coefficient
R². Il mesure de la liaison linéaire entre deux variables,
c'est à dire de l'erreur commise en affirmant que X1 et X2 peuvent
s'écrire comme X1 = a + b*X2. Graphiquement, dans un nuage de points
représenté avec un axe pour X1 et l'autre pour X2, le R²
mesure "l'alignement" des points. Dans le cas d'un modèle linéaire,
un fort R² laisse présager d'une bonne qualité de prédiction
du modèle.
Le R² prend ses valeurs entre -1 et 1. Proche de 0, il signifie que les
variables ne sont que faiblement correllées. On parle alors de variables
orthogonales ou indépendantes. Proche de 1 en valeur absolue, il marque
au contraire une forte interdépendance linéaire des deux variables.
Positif, il rend compte d'une liaison disant que si X1 augmente, X2 aussi. Négatif,
on aura un rapport du style : quand X1 croît, X2 décroît.
- Covariable : variable explicative dans un modèle. Synonymes
: input, variable dépendante, variable explicative, X.
- CRISP-DM : (Cross-Industry Standard Process for DataMining) schéma
de travail élaboré conjointement par un consortium d'entreprises
de divers secteurs d'activités, qui précise les étapes
d'un processus DataMining sur la base d'un "cercle
vertueux".
- CRM : initiales de Customer Relationship Management, ou gestion
de la relation client. Il s'agit d'une méthode de marketing visant
à gérer de manière globale un fichier de client tout
en donnant à chacun d'eux le sentiment d'être traité comme
s'il était unique. étudier chaque client comme si on le connaissait
personnellement, alors qu'il n'est qu'une part d'un gros volume de données.
Le but poursuivi est de cibler l'approche du client en jouant sur ses spécificités,
tout en conservant une étude de l'ensemble de la clientèle pour
des raisons de coûts.