arbres de decision data mining campagne emailing

Data Mining : les arbres de décision et de classification

 

arbre2

Déterminer des modèles de comportement prédictifs est une étape incontournable lors de l’envoi de vos campagnes emailings, c’est pourquoi il est primordial de déterminer la méthode à utiliser lors de la segmentation de vos cibles. L’utilisation d’arbres de classification et de régression est celle qui offre les meilleurs retours pour construire des campagnes efficaces et pertinentes.

 

Les arbres de décision, des modèles prédictifs de comportements 

Les arbres de classification et de régression sont un sous-ensemble de ce qu’on appelle « arbres de décision ». Ils sont des outils d’aide à la décision présentés sous la forme visuelle d’un arbre : la base de l’arbre est la racine, contenant une population d’individus[1] à répartir. C’est ce qu’on nomme « base d’apprentissage ». Cette base comprend un ensemble de variables décrivant et de différenciant  chacun des individus, ainsi qu’une variable d’intérêt dite « cible ».

 

APPRENTISSAGE

 

Pour construire l’arbre, une question est posée à chaque étape à l’ensemble des données concernant une des variables discriminantes (ici dans l’exemple : La civilité, l’âge, le secteur d’activité, la CSP, le nombre d’enfants, la situation familiale et les activités). Ainsi, les individus sont répartis en fonction de leur réponse dans des « nœuds ». Ci-dessous, un exemple de segmentation à partir du nœud racine :

SECTEUR

Ces étapes dites de « partitions » vont se succéder jusqu’à ce qu’un ou plusieurs critères d’arrêt soient atteints. Les nœuds « finaux » qui constituent les feuilles des arbres représentent les groupes finaux contenant les individus, leur assignation. C’est ainsi que les profils sont distingués.

 

La variable cible dans les arbres de décision 

La variable cible représente le comportement observé que nous souhaitons modéliser. Elle peut prendre ses valeurs dans un ensemble de valeurs discrètes (ex : « Oui/Non » ; « Bleu/Vert/Jaune/Rouge »), ou  une valeur numérique dans un ensemble borné (ex : de 1 à 5 ou de 30 à 100).

Cette modélisation nécessite de se baser sur des individus déjà répartis dans un ensemble de classes, c’est-à-dire les diverses valeurs que peut prendre la variable cible. L’arbre va ainsi permettre de prédire la valeur de la variable cible à partir des valeurs des variables discriminantes. La qualité de la prédiction dépend donc de la base d’apprentissage : plus les individus présents dans cette base sont nombreux et variés, meilleure sera la prédiction.

 

Le rôle des arbres de décision dans vos campagnes emailing

La modélisation issue de vos arbres de classification (par exemple par la méthode CART pour Classification and Regression Trees en anglais) peut évidemment être utilisée dans un contexte de campagnes emailing. Ainsi, la variable cible sera le comportement des utilisateurs vis-à-vis des communications envoyées (mails, SMS, appels etc..). Ainsi, les « clients » seront les « ouvreurs » ou les « cliqueurs » et les non-clients seront les personnes n’ouvrant pas les mails ou les personnes ne cliquant pas dans les mails.

L’utilisation de cette approche dans le domaine du marketing est basée sur l’hypothèse que les individus se ressemblant ont des comportements de consommation similaires (ex : deux familles avec 3 enfants auront des comportements similaires alors que ces mêmes comportements seront différents de ceux d’un parent célibataire avec 1 enfant).

Nous partons d’une base d’apprentissage composée de « n » individus, « p » variables et « Y » la variable cible. Les variables peuvent être : l’âge, la civilité, le type d’habitation, le statut familial, etc. Chacune des variables peut avoir ont un certain nombre (K) de modalité(s) : par exemple pour la civilité, il y a : M., Mme, Mlle, etc. et pour le statut familial, il y a : célibataire, marié, pacsé, veuf, etc.

Les phases de CART 

Deux phases sont associées à cette méthode :

1.Phase d’apprentissage : le modèle va être construit basé sur les individus et les relations existant dans la base d’apprentissage. En distinguant les clients acheteurs de ceux qui ne le sont pas, on va trouver les variables les différenciant ainsi que leur importance.

2.Phase de validation : afin de tester le pouvoir prédictif du modèle, on sélectionne un échantillon issu de la base de donnée d’origine mais n’ayant pas été utilisé pour la construction de l’arbre. De cette manière, nous obtenons un modèle pouvant être déployé sur un nouveau jeu de données avec fiabilité.

Apprentissage :

APPRENTISSAGE

 

Déploiement:

DEPLOIEMENT

DEPLOIEMENT2

 

[1] Les individus sont considérés au sens statistique du terme, un individu peut être un jour de l’année dans un set de données météorologiques d’une année ou bien un match de football sur un set de données de saisons de football.