Articles

Data Mining : les arbres de décision et de classification

 

arbre2

Déterminer des modèles de comportement prédictifs est une étape incontournable lors de l’envoi de vos campagnes emailings, c’est pourquoi il est primordial de déterminer la méthode à utiliser lors de la segmentation de vos cibles. L’utilisation d’arbres de classification et de régression est celle qui offre les meilleurs retours pour construire des campagnes efficaces et pertinentes.

 

Les arbres de décision, des modèles prédictifs de comportements 

Les arbres de classification et de régression sont un sous-ensemble de ce qu’on appelle « arbres de décision ». Ils sont des outils d’aide à la décision présentés sous la forme visuelle d’un arbre : la base de l’arbre est la racine, contenant une population d’individus[1] à répartir. C’est ce qu’on nomme « base d’apprentissage ». Cette base comprend un ensemble de variables décrivant et de différenciant  chacun des individus, ainsi qu’une variable d’intérêt dite « cible ».

 

APPRENTISSAGE

 

Pour construire l’arbre, une question est posée à chaque étape à l’ensemble des données concernant une des variables discriminantes (ici dans l’exemple : La civilité, l’âge, le secteur d’activité, la CSP, le nombre d’enfants, la situation familiale et les activités). Ainsi, les individus sont répartis en fonction de leur réponse dans des « nœuds ». Ci-dessous, un exemple de segmentation à partir du nœud racine :

SECTEUR

Ces étapes dites de « partitions » vont se succéder jusqu’à ce qu’un ou plusieurs critères d’arrêt soient atteints. Les nœuds « finaux » qui constituent les feuilles des arbres représentent les groupes finaux contenant les individus, leur assignation. C’est ainsi que les profils sont distingués.

 

La variable cible dans les arbres de décision 

La variable cible représente le comportement observé que nous souhaitons modéliser. Elle peut prendre ses valeurs dans un ensemble de valeurs discrètes (ex : « Oui/Non » ; « Bleu/Vert/Jaune/Rouge »), ou  une valeur numérique dans un ensemble borné (ex : de 1 à 5 ou de 30 à 100).

Cette modélisation nécessite de se baser sur des individus déjà répartis dans un ensemble de classes, c’est-à-dire les diverses valeurs que peut prendre la variable cible. L’arbre va ainsi permettre de prédire la valeur de la variable cible à partir des valeurs des variables discriminantes. La qualité de la prédiction dépend donc de la base d’apprentissage : plus les individus présents dans cette base sont nombreux et variés, meilleure sera la prédiction.

 

Le rôle des arbres de décision dans vos campagnes emailing

La modélisation issue de vos arbres de classification (par exemple par la méthode CART pour Classification and Regression Trees en anglais) peut évidemment être utilisée dans un contexte de campagnes emailing. Ainsi, la variable cible sera le comportement des utilisateurs vis-à-vis des communications envoyées (mails, SMS, appels etc..). Ainsi, les « clients » seront les « ouvreurs » ou les « cliqueurs » et les non-clients seront les personnes n’ouvrant pas les mails ou les personnes ne cliquant pas dans les mails.

L’utilisation de cette approche dans le domaine du marketing est basée sur l’hypothèse que les individus se ressemblant ont des comportements de consommation similaires (ex : deux familles avec 3 enfants auront des comportements similaires alors que ces mêmes comportements seront différents de ceux d’un parent célibataire avec 1 enfant).

Nous partons d’une base d’apprentissage composée de « n » individus, « p » variables et « Y » la variable cible. Les variables peuvent être : l’âge, la civilité, le type d’habitation, le statut familial, etc. Chacune des variables peut avoir ont un certain nombre (K) de modalité(s) : par exemple pour la civilité, il y a : M., Mme, Mlle, etc. et pour le statut familial, il y a : célibataire, marié, pacsé, veuf, etc.

Les phases de CART 

Deux phases sont associées à cette méthode :

1.Phase d’apprentissage : le modèle va être construit basé sur les individus et les relations existant dans la base d’apprentissage. En distinguant les clients acheteurs de ceux qui ne le sont pas, on va trouver les variables les différenciant ainsi que leur importance.

2.Phase de validation : afin de tester le pouvoir prédictif du modèle, on sélectionne un échantillon issu de la base de donnée d’origine mais n’ayant pas été utilisé pour la construction de l’arbre. De cette manière, nous obtenons un modèle pouvant être déployé sur un nouveau jeu de données avec fiabilité.

Apprentissage :

APPRENTISSAGE

 

Déploiement:

DEPLOIEMENT

DEPLOIEMENT2

 

[1] Les individus sont considérés au sens statistique du terme, un individu peut être un jour de l’année dans un set de données météorologiques d’une année ou bien un match de football sur un set de données de saisons de football.

La segmentation RFO

Segmentation RFO

 

Les variantes de la segmentation RFM

Il existe de nombreuses variantes de la segmentation RFM. En effet ce type de segmentation dépend fortement de l’entreprise, de son secteur d’activité, de son organisation, de ses actions marketing etc. La période sur laquelle est réalisée l’analyse, par exemple, va dépendre des produits vendus, elle peut aller d’un mois pour l’alimentaire jusqu’à plusieurs années pour le secteur automobile.

La pondération des critères Récence, Fréquence et Montant dans le calcul du score peut varier d’une entreprise à l’autre. Chaque entreprise va définir le poids accordé à chacun des 3 critères pour en déterminer l’importance.

De même, on peut voir apparaitre des variantes permettant de segmenter une base en fonction du comportement des clients sur un site internet (visites, pages lues…) ou vis-à-vis des campagnes mails (ouvertures/clics). Le principe est similaire mais il ne s’agit pas d’achats mais de visites, d’ouvertures ou de clics.

On parle alors de segmentation RFO : Récence, Fréquence, Ouverture ou de segmentation RFC : Récence, Fréquence, Clics.

 

La segmentation RFO dans une campagne d’e-mailing :

Dans le cas des campagnes d’e-mailing on peut imaginer une segmentation liée aux ouvertures :

La récence :

Quelle est la dernière campagne à laquelle le client a participé ? Si on a choisi les 4 dernières campagnes effectuées, on distinguera 5 types de récence :

0 : la personne n’a participé à aucune campagne

1 : la personne a ouvert au moins un mail lors de la dernière campagne envoyée (la plus récente).

2 : la personne a ouvert au moins un mail lors de l’avant dernière campagne envoyée, mais pas lors de la dernière (la plus récente).

Etc.

 

La fréquence :

Sur les 4 dernières campagnes, à combien d’entre elles le client a-t-il participé ? (en a-t-il ouvert la moitié, les trois quart…) ?

0 : le client n’a ouvert les mails d’aucune campagne

1 : le client a ouvert les mails d’une seule campagne

2 : le client a ouvert les mails de la moitié des campagnes

Etc.

Les ouvertures :

ici on ne parle plus de montant mais d’ouvertures, soit le nombre de mails ouverts sur la période considérée.

Comme dans le cas d’une segmentation RFM, on peut « scorer » chaque client en accordant un poids à chaque critère ou les classer dans un tableau croisé : Récence x Fréquence afin d’adapter les actions d’e-mailing.

 

Définition segmentation RFO