On parle d'échantillon équilibré dans le cas d'une étude de scoring si les données utilisées pour l'analyse sont réparties de manière équitable (50 % et 50 %) entre l'évènement que l'on cherche à prédire (et dont le score rend compte de la probabilité) et l'évènement contraire.
Il est rare de posséder une telle structure de manière naturelle dans un ensemble de données. Pour une étude de mailing, on aura plus souvent des non-répondants (90 à 95% de la base) que des répondants. Pour une étude médicale, on aura plus souvent (espérons-le) des patients sains que des patients présentant une maladie, ou parmi des malades plus de rémissions que de décès. Dans les études d'attrition, on a en général plus de clients fidèles que de départs à la concurrence (ou alors l'étude DataMining présente un caractère de très forte urgence).
Afin d'équilibrer notre échantillon de travail, nous allons utiliser le noeud Sampling de SAS Enterprise Miner.
![]() |