<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>
<channel>
	<title>Blog CRM &#187; Datamining</title>
	<atom:link href="http://www.blog-crm.com/category/documentation-outils-datamining/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.blog-crm.com</link>
	<description>Blog CRM, stratégie marketing, acquisition et fidélisation</description>
	<lastBuildDate>Thu, 19 Aug 2010 14:11:17 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.6</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Conférence Gratuite sur le Data Mining le 24 Septembre à &#171;&#160;La Piscine&#160;&#187;</title>
		<link>http://www.blog-crm.com/non-classe/conference-gratuite-sur-le-data-mining-le-24-septembre-a-la-piscine/</link>
		<comments>http://www.blog-crm.com/non-classe/conference-gratuite-sur-le-data-mining-le-24-septembre-a-la-piscine/#comments</comments>
		<pubDate>Mon, 26 Jul 2010 08:46:19 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Divers]]></category>
		<category><![CDATA[conversion]]></category>
		<category><![CDATA[Parcours client]]></category>
		<category><![CDATA[personnalisation]]></category>
		<category><![CDATA[web 2.0]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=1292</guid>
		<description><![CDATA[Altima organisera le 24 Septembre une conférence gratuite sur l&#8217;utilisation des techniques de data mining pour :
- enrichissement des bases de données &#171;&#160;data extended&#160;&#187;,
- mise en place de modèles prédictifs,
- identification des parcours clients,
- personnalisation des &#171;&#160;push produiit&#160;&#187; sur un site Internet.
J&#8217;animerai cette conférence avec Gael Duhamel, expert VIP Microsoft qui m&#8217;accompagne dans la découverte [...]]]></description>
			<content:encoded><![CDATA[<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Altima organisera le 24 Septembre une <strong>conférence gratuite</strong> sur l&#8217;utilisation des techniques de data mining pour :</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- enrichissement des bases de données &laquo;&nbsp;data extended&nbsp;&raquo;,</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- mise en place de modèles prédictifs,</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- identification des parcours clients,</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- personnalisation des &laquo;&nbsp;push produiit&nbsp;&raquo; sur un site Internet.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">J&#8217;animerai cette conférence avec Gael Duhamel, expert VIP Microsoft qui m&#8217;accompagne dans la découverte de la suite data mining, très prometteuse de Microsoft.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Nous aborderons essentiellement des présentations &laquo;&nbsp;non techniques&nbsp;&raquo; pour échanger avec les participants (durée 1 heure) avant une visite des expositions du Musée de la Piscine. Cette présentation s&#8217;adresse aux différents intervenants marketing ou e-commerce.<br />
</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Pour vous inscrire : <a href="http://www.altima.fr/googleform ">cliquez ici </a></span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Bonnes vacances et à la rentrée</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/non-classe/conference-gratuite-sur-le-data-mining-le-24-septembre-a-la-piscine/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Datalab V8 : The Magical Mining Machine ……</title>
		<link>http://www.blog-crm.com/non-classe/datalab-v8-the-magical-mining-machine-%e2%80%a6%e2%80%a6/</link>
		<comments>http://www.blog-crm.com/non-classe/datalab-v8-the-magical-mining-machine-%e2%80%a6%e2%80%a6/#comments</comments>
		<pubDate>Fri, 09 Jul 2010 14:39:04 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Divers]]></category>
		<category><![CDATA[Analyse]]></category>
		<category><![CDATA[Outils]]></category>
		<category><![CDATA[scoring]]></category>
		<category><![CDATA[segmentation]]></category>
		<category><![CDATA[statistique]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=1257</guid>
		<description><![CDATA[Un petit article avant les vacances pour vanter la performance d’un outil de Data Mining qui mérite vraiment d’être utilisé et connu.
Je suis un utilisateur de Datalab depuis sa version 1 et j’ai pu suivre la croissance de la maturité du produit dans le temps. Il mérite son  qualificatif de « MMM : Magical Mining Machine » [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Un petit article avant les vacances pour vanter la performance d’un outil de Data Mining qui mérite vraiment d’être utilisé et connu.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Je suis un utilisateur de Datalab depuis sa version 1 et j’ai pu suivre la croissance de la maturité du produit dans le temps. Il mérite son  qualificatif de « <strong>MMM : Magical Mining Machine </strong>» car il permet pour un « non expert » du data mining de réaliser une large palette de traitements comme des segmentations, des scores en garantissant un résultat proche de l’optimum dans un délai court.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Un expert pourra l’utiliser en complément des solutions SAS ou SPSS pour accélérer certaines phases d’audit, de discrétisation ou de recherche des relations entre variables (les phases amont de l’étude) et ensuite repivoter dans son outil préféré pour passer en mode programme (Datalab ne génère pas de code pour industrialiser les accès à des bases de données … il est un outil de découverte et pas un outil d’industrialisation du data mining). Les « codeurs SAS » trouveront donc cette limite.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Mais dans les aspects <strong>« découverte » </strong>il offre un périmètre très large d’interventions possibles …. Datalab est un peu le couteau suisse du data mining (facile, pratique et pas cher).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Datalab se caractérise depuis sa création par une logique « guidée » des différentes étapes de traitement d’une analyse de données qui permet de concilier rigueur  et délégation, car un « jeune statisticien » pourra suivre tranquillement les différentes étapes, le manager pouvant valider les étapes intermédiaires. Une logique qui se retrouvait dans les versions antérieures de SPAD.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Il n’est pas dans mon propos de détailler l’ensemble des fonctionnalités de Datalab (j’invite les curieux à télécharger une version de démonstration sur le site de Complex-Systems avec le lien suivant : </span></span><a title="Version de demo" href="http://www.complex-systems.fr/formulaire_demo.shtml">http://www.complex-systems.fr/formulaire_demo.shtml</a><span style="font-size: medium;"><span style="font-family: georgia,palatino;">), mais plutôt d’expliquer la philosophie, les avantages et certaines limites du produit.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">Datalab décompose un traitement avec les étapes      suivantes :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">-              Importation, audit du fichier et  typage des     variables,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">-              Statistiques descriptives et module de      discrétisation,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">-              Analyse croisée et recherche  d’associations.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">Cette première partie permet de prendre connaissance      rapidement des données et de sélectionner rapidement les variables  les plus     pertinentes (avec des tests comme le Khi2).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">Ensuite, Datalab propose de réaliser une très large      palette de modèles</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">-              Un nouveau module d’associations  permet de     réaliser des analyses d’associations dans des fichiers en  ligne et des     fichiers en colonne. J’ai beaucoup apprécié la  performance de la gestion     des dates qui permet de construire des  analyses de séquences avec une     intégration des délais écoulés.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">-              Un module d’analyse factorielle des      correspondances qui permet d’analyser 5 axes (limites) et de  positionner     les groupes homogènes sur un plan factoriel</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">-              Un module de description des groupes  créés     qui permet de s’interfacer avec Excel pour produire des  graphiques rapides.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family:  georgia,palatino;">Mais la spécificité de Datalab reste son      « moteur » de construction de scores qui intègre un algorithme génétique      pour tester les combinaisons de variables.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Concernant la réalisation d’un « bon score », nous dirons que <strong>deux écoles</strong> s’affrontent :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Ceux qui cherchent à limiter les interactions entre les variables pour respecter les principes d’indépendance,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Ceux qui cherchent à tirer profit des interactions entre les variables pour améliorer le pouvoir de prédiction du modèle.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">J’avoue clairement que je suis plutôt dans la deuxième « école » et que j’aime analyser les interactions entre les variables «dites indépendantes » et la variable « cible » pour combiner et créer une nouvelle variable le cas échéant. Personnellement, je pense qu’il n’y a jamais indépendance entre l’âge, la situation de famille, la profession, la situation d’habitation … et une quelconque variable cible (comme l’achat d’une voiture). Le marketing et le risque doivent apprendre à vivre de ces « dépendances » qui font le charme de la vie … et le flair de l’expert. Devoir choisir <strong>LA variable</strong> parmi les 2 ou 3 variables corrélées sur l’autel du V de Cramer m’apparaît difficile et parfois incohérent au niveau fonctionnel. Donc je suis un adepte d’une introduction de règles de combinaison ou de « typologies » dans les scores (ce qui d’ailleurs est devenu une partie de ma « marque de fabrique »). A ce titre Datalab est une véritable mine d’inventivité à ma disposition pour « booster » les modèles et « gratter » les % de performance (et aussi de logique marketing).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Dans la construction d’un score avec Datalab il est possible de combiner les variables ou de les transformer un menu très riche qui combine les variables avec des opérateurs logique ou mathématiques !.<br />
</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"> </span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"> </span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><span style="font-size: large;"><strong>&laquo;&nbsp;,&amp;ç&nbsp;&raquo;,eù$*&nbsp;&raquo;</strong></span> …. devez vous penser …. </span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Mais qu’est-ce que je vais faire avec une variable comme <em>(épargne/(age- ancienneté)/ nbre de personnes</em> ……</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Évidemment certaines combinaisons sont « curieuses », mais parfois on « pressent » une logique interne dans l’agrégat « qui émerge ». Un peu comme un lever de soleil sur le Grand Canyon, on commence à reconnaître les contours d’une structure …. </span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Et oui un peu comme votre capacité d’épargne dépendra du temps …et du nombre de personnes à nourrir …. Datalab peut vous guider avec quelques opérateurs pour vous faire comprendre que la distribution n’est peut être pas « normale » (au sens de la loi normale !) et dès lors les dernières zones d’ombre se lèvent.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Certes une formule de score est moins jolie qu’un lever de soleil sur le Grand Canyon, mais n’oubliez que les statistiques aiment laisser des « zones d’ombre » !</span></span></p>
<p style="text-align: left;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Mais, pour rassurer les puristes de l’indépendance, il reste toujours le choix :</span></span></p>
<p style="text-align: left;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Score sans transformation, ni combinaison (« la rigueur »)</span></span></p>
<p style="text-align: left;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Score intégrant des variables combinées ou transformées (« l’invention »).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Dans tous les cas la seconde variante « la plus inventive » est plus performante. Évidemment il importe de mesurer la robustesse (ce qui est possible avec la définition d’un échantillon de test et de validation). Donc, il est possible de développer son côté « latin » dans les statistiques, sans perdre sa courbe de lift !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Datalab offre la possibilité ensuite de « sélectionner » parmi les variables que l’on souhaite entrer ou exclure du modèle et de rechercher les variables qui permettent d’<strong>optimiser le modèle</strong> (ou qui sont attendus par le demandeur !).  Lorsque l’on est satisfait de sa grille de score on peut l’exporter dans du code pseudo SQL ou un code SAS, ce qui facilite ensuite son intégration dans les environnements informatiques plus standards.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Au final, on peut juger de la performance du modèle avec les courbes de lift, les matrices de confusion et un moteur de simulation qui permet de déterminer le seuil de rentabilité (cas d’un envoi de courrier) avec des hypothèses de coûts fixes, de couts variables, de panier moyen, etc … pour déterminer la quantité « optimale » à cibler …. qui maximise les retours.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Bref, une vraie petite « machine » à faire des <strong>scores intelligents</strong>, et tirer profit des vastes entrepôts de données … et s’aventurer dans les parties les plus « sombres » des Data Warehouses.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">J’allais oublier que Datalab propose un arbre de décision pour décrire les cibles, et qu’une cible peut être rapidement décrite avec les éléments de profiling du produit.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Pour éviter de sombrer dans le 100 % satisfaction ….   qui pourrait être suspect, je dirais que Datalab pourrait s’améliorer les éléments suivants :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Possibilité de créer des « nouvelles données » par combinaison des variables existantes (ce que l’on définit comme un « virtual field »),</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Augmenter les possibilités de filtrage et de redressement des populations pour augmenter les contraintes sur la population,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Optimiser son algorithme de discrétisation par une meilleure gestion des données manquantes (et éviter la dernière classe par défaut) ou définir une discrétisation optimale,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Augmenter les capacités de son Analyse factorielle en termes d’axes et de choix de méthode de clusterisation,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Mieux filtrer les règles de combinaisons les plus pertinentes et intégrer un arbre de décision dans ses bases de règles,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          Produire un tableau des « odds ratios » pour mieux apprécier l’impact des variables dans le score (et fiabiliser le modèle),</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">-          A quand une réintroduction des algorithmes bayésiens de M. Canarelli pour compléter les options de scoring et gestion des données manquantes …</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Mais je sais …. qu’ils y travaillent …. donc j’attends la V9 avec impatience.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Pour en savoir plus … le lien suivant </span></span><a title="Demonstration guidée" href="http://www.complex-systems.fr/datalab_demo.shtml">http://www.complex-systems.fr/datalab_demo.shtml</a> <span style="font-size: medium;"><span style="font-family: georgia,palatino;"> &#8230; que je vous recommande.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Bonne pratique.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/non-classe/datalab-v8-the-magical-mining-machine-%e2%80%a6%e2%80%a6/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Le data mining au service de la Coupe du Monde de Foot !</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/le-data-mining-au-service-de-la-coupe-du-monde-de-foot/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/le-data-mining-au-service-de-la-coupe-du-monde-de-foot/#comments</comments>
		<pubDate>Mon, 07 Jun 2010 16:36:31 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[reseaux bayesiens]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=1244</guid>
		<description><![CDATA[Enfin un moyen ludique pour comprendre les réseaux bayésiens .. et peut-être de gagner un concours de pronostic.
A quelques jours du lancement de la Coupe du Monde de Football en Afrique du Sud, Bayesia met en ligne le premier outil de calcul des chances de qualification au second tour.
Une application que TOUS les passionnés de [...]]]></description>
			<content:encoded><![CDATA[<p><strong><em>Enfin un moyen ludique pour comprendre les réseaux bayésiens .. et peut-être de gagner un concours de pronostic.</em></strong></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong><em>A quelques jours du lancement de la Coupe du Monde de Football en Afrique du Sud, Bayesia met en ligne le premier outil de calcul des chances de qualification au second tour.</em></strong></span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Une application que TOUS les passionnés de Foot peuvent utiliser pour faire leurs pronostics &#8230; et suivre après chaque match l&#8217;évolution des probabilités</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Mais à mon avis, surtout utile pour les &laquo;&nbsp;NON FANS&nbsp;&raquo; &#8230; ainsi une application qui doit permettre à ma conjointe d&#8217;estimer la probabilité que je me retrouve devant la télévision à suivre la Finale sachant que je supporte la France et le Portugal &#8230;..</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">On peut avoir une vision de &laquo;&nbsp;sa coupe du monde&nbsp;&raquo; &#8230; et suivre au fil du temps la variation des probabilités en fonction des résultats du jour.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">L&#8217;application permet de simuler :</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong><em>Si la France fait un match nul contre l’Uruguay et que le Mexique s’est imposé face a</em></strong><strong><em>̀</em></strong><strong><em> l’Afrique du Sud, et puis si &#8230; et si &#8230;. alors la Fran</em></strong><strong><em>ce peut se qualifier</em></strong></span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Rendez-vous sur le site <a href="http://worldcup.bayesialab.com/">http://worldcup.bayesialab.com</a> et saisissez simplement votre pronostic en termes de probabilités (chance) sur l’issue de chacun des 6 matchs du groupe que vous avez sélectionné.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong><em>“A mon avis, il y a 60% de chance que l’Uruguay et la France fassent match nul lors du premier match du groupe A, 25% que la France gagne, et donc 15% que l’Uruguay l’emporte”</em></strong></span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Bayesia se charge alors du reste et vous calcule la probabilité exacte de qualification des équipes du groupe.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;">N&#8217;hésitez pas à visiter <a href="http://worldcup.bayesialab.com/">ce site</a> et à vous essayer à ces pronostics d&#8217;un genre nouveau.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><br />
Pour les experts du data mining la visite du site reste de toute façon une référence &#8230;.. en plus Lionel Jouffe est super sympa , ce qui ne gâche rien.</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><br />
Bonnes simulations et bonne Coupe du Monde</span></span></p>
<p><span style="font-size: medium;"><span style="font-family: georgia,palatino;"> </span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/le-data-mining-au-service-de-la-coupe-du-monde-de-foot/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Lien Mesure Campagnes et Infidélité Client</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/lien-mesure-campagnes-et-infidelite-client/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/lien-mesure-campagnes-et-infidelite-client/#comments</comments>
		<pubDate>Fri, 09 Oct 2009 14:17:54 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Client]]></category>
		<category><![CDATA[Documentation Datamining]]></category>
		<category><![CDATA[Multicanal]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=278</guid>
		<description><![CDATA[Existe-t-il un lien entre la mesure des campagnes et le chaos « client » ? Curieusement dans la même semaine, deux clients m&#8217;ont posé la question de la &#171;&#160;mesure&#160;&#187; de ROI des campagnes. Deux acteurs dans des secteurs très différents (telco et assurance) mais le même souci de &#171;&#160;mesure&#160;&#187;.
Pourtant mes deux clients présentent des contextes [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em>Existe-t-il <strong>un lien entre la mesure des campagnes et le chaos « client » ?</strong> Curieusement dans la même semaine, deux clients m&#8217;ont posé la question de la &laquo;&nbsp;mesure&nbsp;&raquo; de ROI des campagnes. Deux acteurs dans des secteurs très différents (telco et assurance) mais le même souci de &laquo;&nbsp;mesure&nbsp;&raquo;.</em></span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Pourtant mes deux clients présentent des contextes très différents :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- dispositifs très évolués et rodés dans les Telcos avec<br />
- des zones &laquo;&nbsp;blanches&nbsp;&raquo;,<br />
- des segmentations et des scores,<br />
- des calculs de coûts de recrutement et de valeur client<br />
- des solutions très industrialisées de gestion de campagnes multi-canal<br />
- des pratiques très expertes des dispositifs multi-canaux (courriers, sms, call center, espace client internet, communauté, etc.)<br />
- dispositif plus émergent et en construction pour mon client en Assurance qui souhaite s&#8217;améliorer dans la mesure de la performance. Évidemment, si l&#8217;écart des moyens était aussi important &#8230; pour au final arriver au même sentiment d&#8217;incomplétude de la mesure, on peut se poser la question de l&#8217;efficacité et de la légitimité des mesures :<br />
Pourquoi un écart aussi important de moyens et de pratiques se traduit-il par la même insatisfaction ?</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Faut-il vraiment mettre en place des dispositifs de mesure ?</strong> Rassurez-vous la seconde question est idiote !.<br />
Oui, il faut mettre des mesures, car sans mesure, on s&#8217;oriente vers une croissance incontrôlée des coûts de sollicitations marketing. Un bref rappel historique sur les centres d&#8217;appels met en évidence qu&#8217;à leur début, les clients pouvaient « appeler » sans compter, les gourous de la satisfaction ayant &laquo;&nbsp;prouvés&nbsp;&raquo; que les &laquo;&nbsp;gains de la satisfaction&nbsp;&raquo; permettaient de dépasser les coûts additionnels du service client. Une belle légende urbaine &laquo;&nbsp;un client satisfait en parle à 3 et un client insatisfait en parle à 10&#8243; qui nous a tous fait frémir de joie sur les perspectives de rentabilité.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Quinze ou vingt ans plus tard, le contrôle de gestion a permis de remettre un peu d&#8217;ordre dans ces &laquo;&nbsp;prophéties incantatoires&nbsp;&raquo; pour externaliser, pour surtaxer, mettre en place des approches plus &laquo;&nbsp;segmentées&nbsp;&raquo; du service client.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Un débat qui renaît avec l&#8217;apparition des communautés &#8230; le client mécontent peut en parler à 10.000 &#8230; bref une nouvelle angoisse pour le marketing et la communication. Donc je pense qu&#8217;effectivement « Il faut mesurer ». Mais je ne pense pas que la solution se trouve dans un mode traditionnel de &laquo;&nbsp;bench mark&nbsp;&raquo;. Il me semble que &laquo;&nbsp;la solution&nbsp;&raquo; n&#8217;est pas disponible actuellement. Il n&#8217;y a peut-être pas &laquo;&nbsp;une solution&nbsp;&raquo; mais un besoin de modifier les mécaniques de mesure en les adaptant. Si autant d&#8217;entreprises expriment leurs insatisfactions, ou les difficultés des mesures, c&#8217;est me semble-t-il qu&#8217;il existe une conjonction de facteurs qui rendent difficile l&#8217;élection &laquo;&nbsp;de la bonne pratique&nbsp;&raquo;. Je ne pense pas avoir de &laquo;&nbsp;solutions&nbsp;&raquo; à proposer (aveu désarmant pour un consultant), mais par contre je souhaite un peu contribuer à la réflexion en avançant quelques éléments d&#8217;analyse.  Pourquoi me semble-t-il qu&#8217;il n&#8217;existe-t-il pas une &laquo;&nbsp;bonne pratique&nbsp;&raquo; ? Les acteurs de la VPC (les grands cataloguistes) ont été pendant de nombreuses années des experts de la mesure de campagne. Ils avaient une maîtrise telles des zones blanches, des panels, etc &#8230; qu&#8217;ils avaient des prévisions fiables des résultats futurs en s&#8217;inspirant de l&#8217;analyse des campagnes passées. Les résultats des campagnes Printemps/Eté 2003 permettaient de guider le business plan 2004 avec une marge d&#8217;erreur assez faible. Mais l&#8217;arrivée d&#8217;Internet, de la surpression des canaux a déréglé ce &laquo;&nbsp;modèle&nbsp;&raquo;. Les TTBC (les Très Très Bonnes Clientes) ne se comportent plus comme avant &#8230; les rendements ont baissé et sont devenus plus aléatoires. Une certaine forme de chaos s&#8217;est introduite. La mesure &laquo;&nbsp;court terme&nbsp;&raquo; est de moins en moins adaptée &#8230;. faut-il intégrer d&#8217;autre élément comme la &laquo;&nbsp;valeur client&nbsp;&raquo; ? Faut-il remplacer le fameux RFM ? Une question qui m&#8217;a été posée plus d&#8217;une fois ! A côté des VPcistes, les acteurs de la Banque m&#8217;apparaissaient comme les professionnels du multi-canal. Des segments clairement définis exprimant une vision consolidée du client (et parfois du foyer), des données très riches, des logiques de valeur et de parcours clients, des dispositifs multi-canaux très sophistiqués. Compte tenu de la maturité financière de ces acteurs, on peut légitimement se dire que tous ses efforts ne se justifient que parce qu&#8217;ils créent de la valeur. Mais le modèle de la Banque (ou de l&#8217;Assureur) s&#8217;inscrit dans une dimension temps très spécifique. La mesure n&#8217;est pas immédiate &#8230; beaucoup d&#8217;actions sont <strong>&laquo;&nbsp;non rentables&nbsp;&raquo; à court terme&#8230; mais se justifient par &laquo;&nbsp;des potentiels futurs&nbsp;&raquo;</strong>. En effet, chaque campagne contribue de manière assez marginale au développement du multi-équipement et de la valeur additionnelle. Les rapports annuels de ces acteurs permettent de constater une croissance lente de ses deux indicateurs (multi-équipement/valeur) pour la plupart des réseaux. Les dispositifs coûteux de conquête des étudiants ayant une &laquo;&nbsp;bonne note&nbsp;&raquo; au BAC s&#8217;inscrivent dans un horizon de 5 à 8 ans de &laquo;&nbsp;pay back&nbsp;&raquo; après la fin des études supérieures, parce que le taux de fidélisation est assez élevé.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Un acteur des Telcos ou de la Presse ne peut se &laquo;&nbsp;payer&nbsp;&raquo; ce coût sur une durée de 5-8 ans car la durée de vie moyenne des clients est beaucoup plus courte. Les mesures de ROI des campagnes bancaires ne sont pas applicables à des secteurs connaissant des taux d&#8217;attrition trop forts.  Lorsque le besoin de &laquo;&nbsp;pay back&nbsp;&raquo; est rapide, la &laquo;&nbsp;valeur client&nbsp;&raquo; n&#8217;a plus de sens.  Si l&#8217;infidélité des clients bancaires se généralisait, il est probable que le besoin de mesurer des ROI immédiats augmenterait.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Ainsi il me semble que :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><br />
- les indicateurs de mesure des campagnes doivent <strong>intégrer le taux de fidélité</strong> (ou d&#8217;inertie) des clients<br />
- une analyse plus fine des facteurs de modification de la fidélité (ou plutôt de la fidélisation comme le souligne M. Lehu) doive être mise en place pour contrôler le &laquo;&nbsp;turn over&nbsp;&raquo; client. Oui, le RFM est insuffisant. La volatilité de la fidélisation est un symptôme de dérèglement du modèle. Il est important de percevoir cette évolution pour éviter de prendre des &laquo;&nbsp;mauvaises décisions&nbsp;&raquo;. L&#8217;absence d&#8217;intégration de fonction de duration (temps de survie commerciale du client) conduit parfois à la réduction d&#8217;investissement &laquo;&nbsp;cruciaux&nbsp;&raquo; en début de cycle d&#8217;acquisition. Certains mécanismes d&#8217;accompagnement des clients sont supprimés sur une logique de mesure &laquo;&nbsp;court terme&nbsp;&raquo; alors que leurs effets sont &laquo;&nbsp;long terme&nbsp;&raquo;. A l&#8217;inverse, certains investissements sont maintenus &laquo;&nbsp;sur une logique court terme&nbsp;&raquo; alors qu&#8217;ils détruisent de la &laquo;&nbsp;valeur long terme&nbsp;&raquo;.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Par exemple,<br />
- on supprime un chèque de &laquo;&nbsp;bienvenue&nbsp;&raquo; qui génère souvent un second contrat porteur de fidélité dans une logique court terme,<br />
- on maintient certaines actions de rétention pour renouveler des clients &laquo;&nbsp;non rentables&nbsp;&raquo;. Pour illustrer ce débat sur un autre niveau, on peut réduire le déficit de l&#8217;état rapidement en supprimant l&#8217;éducation &#8230; on imagine rapidement les effets destructif de cette mesure à moyen terme sur le climat social et la productivité du pays. Et pourtant, chaque jour, il nous arrive d&#8217;appliquer <strong>ce comportement &laquo;&nbsp;malthusien&nbsp;&raquo; </strong>par manque de précision de nos instruments de mesure. Pourquoi me semble-t-il que la fonction temps doive être introduite dans les mesures ? Les indicateurs de mesure des campagnes doivent intégrer ces éléments temporels pour permettre un dosage entre rendement court terme et effet long terme. La mesure d&#8217;un taux de rendement instantané est insuffisante surtout si on pressent une duration importante de la relation. La question de mesure d&#8217;une campagne devient donc plus complexe &#8230;. quels sont les indicateurs de mesure adaptés à cette campagne ou cette cible. Oui, le temps doit permettre de mieux modéliser les rendements Les &laquo;&nbsp;puristes&nbsp;&raquo; de la gestion de campagnes s&#8217;empresseront de dire (enfin il n&#8217;y a pas tant de commentaires sur les articles du blog !) qu&#8217;il faut &laquo;&nbsp;la même mesure&nbsp;&raquo;, que c&#8217;est une usine à gaz de faire des mesures différentes &#8230;bref que la standardisation permet la comparaison, le fameux &laquo;&nbsp;bench mark&nbsp;&raquo;. Sans mesure comment assurer la continuité. Une défense de l&#8217;immobilisme que je ne partage pas. Pourquoi me semble-t-il que les facteurs de fonds sont importants ?</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Certains facteurs sont en train de modifier les éléments de la mesure :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- certains canaux peu coûteux comme les emails <strong>ne justifient certes pas des mesures</strong> aussi lourdes que les mesures de rendements de campagnes courrier ou téléphone. OK sur ce constat largement majoritaire dans le Web. Donc autant arroser à tout va !<br />
Mais ne pas évaluer le pouvoir additionnel des emails sur les taux de transformation ou la fidélisation peut se révéler dangereux. Il est surprenant de constater la faiblesse des études et le faible intérêt des acteurs du web sur l&#8217;impact des emails sur les ventes physiques ? Il existe un réel effet &laquo;&nbsp;Kiss Cool&nbsp;&raquo; du web sur le CA. Certaines &laquo;&nbsp;news letters&nbsp;&raquo; se traduisent par des baisses de CA, ce qui n&#8217;empêchent pas les gestionnaires de sites Internet de les développer ! Une accoutumance du Web et des promotions auprès des clients &laquo;&nbsp;traditionnels&nbsp;&raquo; se traduit par une volatilité plus forte des clients &#8230; et pourtant certains DG préconisent encore &laquo;&nbsp;la dématérialisation de la relation&nbsp;&raquo; à tout va. <strong>La virtualisation de la relation peut se traduire par la virtualisation du client</strong>. Pour ceux qui en doutent &#8230; une Banque américaine avait &laquo;&nbsp;porté&nbsp;&raquo; avec succès ses clients sur le Web &#8230; lors de la crise de fin 2008, ses avoirs sont passés rapidement chez ses concurrents plus &laquo;&nbsp;rassurants&nbsp;&raquo;, son destin aurait certainement été autre si les clients avaient du venir en agence. Nul doute que &laquo;&nbsp;les vendeurs&nbsp;&raquo; auraient rassurés. Un magnifique &laquo;&nbsp;avatar&nbsp;&raquo; a accompagné le transfert des fonds &#8230; et la vente de la Banque.<br />
- <strong>le développement des &laquo;&nbsp;coûts fixes&nbsp;&raquo;</strong> dans la gestion de la relation client impose de mettre en oeuvre une nouvelle intégration des coûts. Maintenant que les investissements CRM ont été mis en place avec des centres d&#8217;appels, des conseillers, des sites, etc &#8230;. il est crucial de &laquo;&nbsp;faire tourner&nbsp;&raquo; la mécanique. Il s&#8217;agit d&#8217;utiliser avec la &laquo;&nbsp;bonne capacité&nbsp;&raquo; les ressources disponibles. Cette dimension de &laquo;&nbsp;saturation optimale&nbsp;&raquo; des ressources n&#8217;est pas appréciée dans beaucoup de secteurs d&#8217;activité de services (les leaders sont les compagnies aériennes, les chaînes d&#8217;hôtels et les acteurs des transports). Il faut introduire une variabilité des coûts en fonction du niveau d&#8217;utilisation en s&#8217;inspirant des modèles du &laquo;&nbsp;yield management&nbsp;&raquo; : ne pas avoir d&#8217;appels à faire par le centre d&#8217;appels devient plus coûteux que de faire des appels. A l&#8217;inverse produire des remontées non absorbables par le réseau de vente, conduit à des attentes clients insatisfaites et donc de l&#8217;insatisfaction. ll faut donc avoir une courbe des coûts en fonction des niveaux de saturation des ressources. Pourtant beaucoup de modèles de valeur client comptabilisent des &laquo;&nbsp;coûts par opération&nbsp;&raquo; et au final énoncent que la croissance de la valeur passe par la réduction des coûts. Evidemment en se trompant dans ses fonctions de coûts on finit par avoir des principes de réduction (des offres, des équipes), on se retrouve dans la spirale malthusienne, sauf que le &laquo;&nbsp;poste de coûts&nbsp;&raquo; perdure &#8230;. mais n&#8217;est pas affecté aux campagnes, mais directement sur le compte de résultat.<br />
- <strong>l&#8217;accélération et le cumul des sollicitations</strong> ne permettent parfois plus de distinguer quel est l&#8217;élément déclencheur de l&#8217;acte d&#8217;achat. Ainsi la sollicitation email d&#8217;un client l&#8217;amène sur le site, il regarde l&#8217;article sans l&#8217;acheter, mais une gestion &laquo;&nbsp;intelligente&nbsp;&raquo; lui présente des bannières de pub avec le produit regardé. Convaincu de la validité de son choix il achète. Qui a fait &laquo;&nbsp;la vente&nbsp;&raquo; : l&#8217;email, le site, la bannière ? Au final, cette appropriation par un canal est-elle si importante ? Le plus important n&#8217;est-il pas de s&#8217;assurer que ce processus multi-canal fait venir des &laquo;&nbsp;bons clients&nbsp;&raquo;.<br />
- <strong>la fluidité de l&#8217;enchaînement des tâches</strong> est souvent le facteur le plus important pour expliquer le succès de la campagne. Une étude effectuée par Altima a permis de valider l&#8217;importance des délais de relance au niveau du taux de transformation &#8230; chaque heure qui passe diminue la probabilité de succès ! Mais qui modélise le taux de retour en fonction du temps et des étapes aujourd&#8217;hui ? Beaucoup de facteurs introduisent du « chaos » dans le comportement, mais la mesure ne varie pas !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Il existe de nombreux indices qui mettent en évidence le besoin de &laquo;&nbsp;refondre&nbsp;&raquo; la mesure pour y introduire de nouveaux éléments d&#8217;appréciation en fonction :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">- du temps et des ressources impactées par la campagne,<br />
- du niveau d&#8217;utilisation optimal des ressources,<br />
- du niveau de valeur attendue des clients,<br />
- des processus multi-canaux,<br />
- de la fluidité des processus. J&#8217;avoue ne pas avoir le &laquo;&nbsp;bagage&nbsp;&raquo; mathématique pour définir les contraintes et les latitudes à introduire dans la mesure, mais il me semble que de se pencher sur l&#8217;impact de certains éléments sur la perception des indicateurs actuels serait un premier pas pour sortir de cette logique du ROI court terme. Un prochain article s&#8217;attachera a continuer le débat sur &laquo;&nbsp;les types de campagnes&nbsp;&raquo;</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Merci pour votre attention et à bientôt.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/lien-mesure-campagnes-et-infidelite-client/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Les 11 recommandations pour faire un score performant</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/les-11-recommandations-pour-faire-un-score-performant/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/les-11-recommandations-pour-faire-un-score-performant/#comments</comments>
		<pubDate>Mon, 03 Aug 2009 14:12:03 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Client]]></category>
		<category><![CDATA[Documentation Datamining]]></category>
		<category><![CDATA[Livres]]></category>
		<category><![CDATA[performance]]></category>
		<category><![CDATA[segmentation]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=276</guid>
		<description><![CDATA[La création d&#8217;un score peut apparaître &#171;&#160;faussement&#160;&#187; plus simple que la création d&#8217;une segmentation.
Toutefois, la pratique de la régression logistique (sous SAS ou autres outils)   m&#8217;a conduit à constater qu&#8217;il existe des subtilités dans la construction &#171;&#160;d&#8217;un bon score&#160;&#187; que j&#8217;ai eu envie de faire partager avec les &#171;&#160;novices&#160;&#187; du domaine (les experts ne trouveront [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em><strong>La création d&#8217;un score peut apparaître &laquo;&nbsp;faussement&nbsp;&raquo; plus simple que la création d&#8217;une segmentation.</strong></em></span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Toutefois, la pratique de la régression logistique (sous SAS ou autres outils)   m&#8217;a conduit à constater qu&#8217;il existe des subtilités dans la construction &laquo;&nbsp;d&#8217;un bon score&nbsp;&raquo; que j&#8217;ai eu envie de faire partager avec les &laquo;&nbsp;novices&nbsp;&raquo; du domaine (les experts ne trouveront certainement pas d&#8217;éléments majeurs dans cet article).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Cet article vise à aider les &laquo;&nbsp;jeunes data miners&nbsp;&raquo; qui doivent construire leurs premiers scorings pour leur éviter quelques déconvenues techniques, mais aussi commerciales, car un bon score ne se mesure pas au R2 (indice de convergence) mais à l&#8217;enthousiasme des utilisateurs qui vous font des demandes répétées par la suite. Comme me l&#8217;a dit une fois Amélie sur un score de &laquo;&nbsp;potentiel&nbsp;&raquo;, la réussite du score a été les félicitations des télé conseillers .qui attestaient des résultats de vente sur la liste.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Enfin, cet article ne traite pas des scores de &laquo;&nbsp;risque&nbsp;&raquo; de crédit, qui sont spécifiques dans leurs constructions et outils de contrôles (Bale II), mes conseils s&#8217;appliquent pour les scores &laquo;&nbsp;d&#8217;appétences&nbsp;&raquo; à des produits ou des offres pour les Directions Marketing ou Commerciales.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 1 : Définir le contexte d&#8217;utilisation du score</strong><br />
Il est important de comprendre dans quel contexte s&#8217;inscrit la construction du score. S&#8217;agit-il de s&#8217;inscrire dans la &laquo;&nbsp;continuité&nbsp;&raquo; &#8230; où il existe un score actuel et une mise en jour est simplement à faire &#8230; où le score actuel est en véritable &laquo;&nbsp;faiblesse&nbsp;&raquo; et une rupture est nécessaire.<br />
Dans un contexte de continuité..il est primordial d&#8217;évaluer les variables existantes, d&#8217;évaluer les poids des modalités.. et de prouver qu&#8217;une nouvelle variable peut s&#8217;insérer dans la formule.<br />
Dans une stratégie de &laquo;&nbsp;rupture&nbsp;&raquo;, il convient de ne pas trop respecter les variables précédentes.. effectivement si les ciblages de 3 dernières années ont été faits avec un score &#8230; il est logique de les souscripteurs des 3 dernières années soient conformes aux scores passés. il faut être capable de &laquo;&nbsp;sortir de l&#8217;ornière&nbsp;&raquo; des pratiques et des usages.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 2 : Choisir sa période d&#8217;observation et ses individus</strong><br />
La construction d&#8217;un score répond à une problématique d&#8217;optimisation commerciale &laquo;&nbsp;à venir&nbsp;&raquo;. il faut donc se concentrer sur le passé récent .. et éviter de faire une étude sur un stock de détenteurs basés sur un historique trop long. Ainsi, il convient souvent de donner plus d&#8217;importance aux individus récents, recrutés avec des techniques et des contextes commerciaux proches de celui qui prévaudra pour l&#8217;action future.<br />
Il faut aussi bien vérifier si certains mécanismes commerciaux ou promotionnels n&#8217;ont pas eu une incidence trop forte sur le profil des clients. Evidemment faire des &laquo;&nbsp;promos canons&nbsp;&raquo; se traduit par des cibles spécifiques &#8230; si la nouvelle offre n&#8217;est pas aussi &laquo;&nbsp;canon&nbsp;&raquo; alors il faut exclure ces individus de la matrice d&#8217;apprentissage. Si vous avez donné des Iphones gratuits pendant 3 mois pour des souscriptions de contrats, et que demain vous n&#8217;avez ni Iphone, ni le levier de la gratuité &#8230; il est probable que votre score fonctionne en &laquo;&nbsp;stat&nbsp;&raquo;  et soit lamentable &laquo;&nbsp;dans la vraie vie&nbsp;&raquo;.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 3 : Construire une matrice de travail &laquo;&nbsp;imaginative&nbsp;&raquo;</strong><br />
Peut-être un des traits les plus distinctifs d&#8217;un score &laquo;&nbsp;fraîcheur&nbsp;&raquo;. Mes clients savent que ma capacité à transformer un entretien fonctionnel en une &laquo;&nbsp;nouvelle piste&nbsp;&raquo; est importante. L&#8217;intuition des acteurs du  marketing ou du commerce est souvent très salutaire. Ils &laquo;&nbsp;sentent&nbsp;&raquo; que telle variable a une incidence (à tort ou à raison), mais ils ont des convictions. Il est important d&#8217;introduire ces &laquo;&nbsp;intuitions&nbsp;&raquo;, &laquo;&nbsp;perception&nbsp;&raquo; dans la démarche pour vérifier si elles se vérifient statistiquement, sont capables de bouleverser une variable ancienne. Un exemple récent était la conviction qu&#8217;une gamme de produits influait positivement sur la fidélisation. L&#8217;introduction de cette variable dans la construction du score a mis en évidence, qu&#8217;elle jouait .. à l&#8217;inverse de la croyance. Immédiatement la mécanique commerciale (et les achats de produits) a réagi. Le score n&#8217;était pas encore appliqué, mais il avait des effets &laquo;&nbsp;managériaux&nbsp;&raquo;.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 4 : Optimiser le découpage des variables continues</strong><br />
La construction d&#8217;un score au moyen d&#8217;une régression logistique nécessite de discrétiser la variable continue. L&#8217;utilisation des quartiles ou déciles automatiques peut s&#8217;avérer suffisante, mais ne garanti pas l&#8217;optimum. Certains outils permettent de démarrer avec des découpages très fins (par exemple des centiles) et de réduire pas à pas le découpage pour avoir une discrétisation optimale. Ainsi, il m&#8217;arrive d&#8217;utiliser des arbres de décision (comme Alice d&#8217;Isoft) pour dégager le découpage &laquo;&nbsp;optimal&nbsp;&raquo; (celui qui crée le plus de variance).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 5 : Faire vivre et survivre ses taxonomies</strong><br />
Les variables discrètes posent des problèmes spécifiques&#8230; comme réduire les modalités, sans perdre du pouvoir explicatif. Ici encore l&#8217;utilisation des arbres de décision (et d&#8217;outils comme les réseaux bayésiens) permet de définir des très bons regroupements. Une étude récente sur les modèles de véhicules (relativement nombreux) a permis de dégager des regroupements adaptés (un coupé Z4 est signifiant) et différents en fonction de certaines données (une Mini &laquo;&nbsp;porte&nbsp;&raquo; des informations différentes selon le cycle de vie du client).<br />
Il faut parfois laisser vivre des modalités parfois peu présentes, rejetés par les indices de type Chi2, et savoir &laquo;&nbsp;prendre le pas sur le programme&nbsp;&raquo;. Il y aura toujours peu de gens qui paient l&#8217;ISF, mais ne pas prendre cette information sous prétexte que moins de 0.5 % de la population présente cette caractéristique est un &laquo;&nbsp;non sens&nbsp;&raquo; pour des scores de fidélité. Pas &laquo;&nbsp;robuste&nbsp;&raquo; au sens statistique, mais tellement signifiant pour un commercial.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 6 : Sortir des &laquo;&nbsp;tautologies&nbsp;&raquo; basiques</strong><br />
Attention aux variables qui contribuent trop dans le modèle. Il est important de ne pas avoir une seule variable (ou modalité) qui explique plus de 25 % de la variance du modèle. On aboutit parfois à un modèle complexe .. pour pas grand chose, mais on peut aussi avoir loupé l&#8217;occasion de faire des modèles spécifiques. Ainsi si le type de véhicule &laquo;&nbsp;neuf ou occasion&nbsp;&raquo; pèse sur la variable cible .. peut-être est-il plus utile de faire 2 modèles séparés (un pour occasion et un pour neuf) afin de trouver des cibles de développement en quantité suffisante. Se coller sur une variable revient souvent à &laquo;&nbsp;tarir&nbsp;&raquo; la capacité d&#8217;extension du score, Un bon score doit avoir du &laquo;&nbsp;ventre&nbsp;&raquo; (au contraire de l&#8217;homme). Une belle courbe de lift est une garantie de trouver des cibles potentielles (c&#8217;est à dire non équipées).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 7 : Tester les modes de sélection des variables</strong><br />
Les outils de régression logistiques permettent d&#8217;agir sur les modes de sélection (stepwise, backward, est..). Une bonne analyse testera les différentes méthodes pour mieux comprendre comment &laquo;&nbsp;entrent&nbsp;&raquo; les variables. Une analyse &laquo;&nbsp;pas à pas&nbsp;&raquo; permet de mieux comprendre comment se constitue le modèle.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 8 : Tester les variables et les poids sur plusieurs générations</strong><br />
Lorsque vous êtes content de votre premier modèle &#8230; je vous recommande de le tester sur une autre population plus récente. Si vous avez mis 3 mois à faire votre score &#8230; que donne-t-il en terme de résultat sur les 3 derniers mois d&#8217;activités &#8230; bref s&#8217;est-il révélé pertinent pour prédire ou se contente-t-il seulement de modéliser le passé. Savoir expliquer à 90 % ce qui s&#8217;est passé l&#8217;année dernière .. n&#8217;a jamais voulu dire que l&#8217;on pouvait savoir ce qui se passera demain. On peut être le &laquo;&nbsp;roi de la modélisation&nbsp;&raquo; et être totalement &laquo;&nbsp;à côté&nbsp;&raquo; du futur. Il est différent de faire de l&#8217;histoire ou de la prospective. Les scorings commerciaux s&#8217;intéressent souvent à une qualité de prédiction du business à venir.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 9 : Savoir prendre de la liberté avec les poids</strong><br />
La détermination du poids d&#8217;une modalité s&#8217;appuie sur le passé. Evidemment si l&#8217;entreprise avait décidé d&#8217;allouer des offres intéressantes à &laquo;&nbsp;des jeunes couples&nbsp;&raquo;, il est logique de cette modalité joue positivement dans le score. Mais si maintenant l&#8217;entreprise souhaite se repositionner sur &laquo;&nbsp;les familles avec enfants&nbsp;&raquo;, il faut se révéler capable de modifier les modalités pour aller dans le sens de la stratégie de l&#8217;entreprise. Il n&#8217;existe rien de pire que d&#8217;avoir des listes &laquo;&nbsp;scorés&nbsp;&raquo; sur des principes anciens. On est à peu prêt sur de ne jamais atteindre les objectifs de l&#8217;entreprise. A ce titre, certains scores conçus il y a plus de 5 ans (avant le véritable décollage d&#8217;Internet et de la mobilité) se révèle de magnifique &laquo;&nbsp;piège à mouche&nbsp;&raquo;, on ne peut sortir de son ancienne cible.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 10 : Mesurer la performance réelle</strong><br />
Avant de crier victoire sur un score, il est judicieux de vérifier &laquo;&nbsp;dans le réel&nbsp;&raquo; sa capacité à améliorer la performance commerciale. Les nouveaux canaux de communication comme le Web se révèle des moyens simples et non coûteux de tester la véritable courbe de lift (à peu de frais). Si le &laquo;&nbsp;haut du score&nbsp;&raquo; marche mieux &#8230; on pourra le voir sur des ventes réelles. Pouvoir dire que un gain de 10 % du score se traduit par une croissance du taux de conversion de 8 % et un panier moyen de + 23 % &#8230;.. se révèle plus percutant qu&#8217;un beau R2 théorique.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Règle 11 : Savoir ne pas suivre les 10 règles ci-dessus</strong><br />
Savoir sortir du &laquo;&nbsp;sentier battu&nbsp;&raquo; est important pour identifier des &laquo;&nbsp;nouvelles opportunités. Un score se base sur le passé &#8230; il faut donc se méfier de l&#8217;effet rétroviseur et savoir &laquo;&nbsp;quitter&nbsp;&raquo; l&#8217;ornière tracée.</span></span></p>
<p style="text-align: justify;">
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Merci à Amélie, Kaoutar, Florence, Marie-Pierre, Stéphanie, Wendy et tous les data miners avec qui j&#8217;ai travaillé pour la source d&#8217;inspiration de cet article.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/les-11-recommandations-pour-faire-un-score-performant/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Quand le data mining devient BIO : Business Intelligence Opérationnelle (Partie 1)</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/quand-le-data-mining-devient-bio-business-intelligence-operationnelle-partie-1/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/quand-le-data-mining-devient-bio-business-intelligence-operationnelle-partie-1/#comments</comments>
		<pubDate>Thu, 16 Oct 2008 13:40:08 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Documentation Datamining]]></category>
		<category><![CDATA[processus]]></category>
		<category><![CDATA[web 2.0]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=271</guid>
		<description><![CDATA[Histoire de 1 an dans le WEB !
En Juin 2007, j&#8217;ai eu la responsabilité d&#8217;organiser un séminaire sur les perspectives de la Business Intelligence pour un opérateur de téléphonie mobile. Une occasion de présenter et d&#8217;échanger sur la nécessité future de mieux intégrer la connaissance client dans les processus opérationnels (Business Intelligence Opérationnelle) et dans [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Histoire de 1 an dans le WEB !<br />
</strong><br />
En Juin 2007, j&#8217;ai eu la responsabilité d&#8217;organiser un séminaire sur les perspectives de la Business Intelligence pour un opérateur de téléphonie mobile. Une occasion de présenter et d&#8217;échanger sur la nécessité future de mieux intégrer la connaissance client dans les processus opérationnels (Business Intelligence Opérationnelle) et dans les tableaux de bord pour maîtriser et anticiper sur les décisions. Si le constat apparaissait clair pour l&#8217;ensemble des acteurs, quelques semaines plus tard, les mêmes acteurs éprouvaient les plus grandes difficultés pour introduire un élément de valorisation des clients dans les processus commerciaux de sollicitation et d&#8217;animation. Les raisons étaient multiples : peu de disponibilité dans le planning sur-chargé, risque de fiabilité de certaines données, peur d&#8217;introduire un changement, disponibilité pour une seule données, bref &#8230;. si la vision cible était partagée, le chemin pour commencer était difficile.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">En 25 ans de consultant interne ou externe, j&#8217;ai trop vécu cette frustration de définir une vision cible (système d&#8217;information, segmentation, scores, valeur client, processus, reporting, etc.) et de constater la difficulté de mes clients pour &laquo;&nbsp;faire bouger&nbsp;&raquo; les choses. Il est certes indispensable de gérer et préparer les acteurs au changement, mais la recherche d&#8217;un consensus dans le temps conduit souvent à une version très édulcorée de la cible (au mieux), et parfois à une solution contre productive (qui permet de renforcer les sceptiques). Heureusement le métier de &laquo;&nbsp;consultant&nbsp;&raquo; n&#8217;est pas que frustration ! La vision, la volonté et l&#8217;obstination de certains clients à &laquo;&nbsp;maintenir le cap&nbsp;&raquo; m&#8217;a permis de vivre des expériences très intéressantes et de partager des succès dans les projets. Il ne m&#8217;est pas possible de les citer tous, mais Hervé, Gilles, Dominique, Xavier, Nathalie, Brigitte, Céline, Statis, Fabienne, Amélie, Arnaud, Laurent se reconnaitront dans cette capacité à tenir le cap.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Après un an de web, j&#8217;ai pu mesurer la souplesse, la réactivité du canal Web.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Le Web est vraiment BIO : on peut tester rapidement l&#8217;intelligence !</strong></span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Comme cette possibilité est largement liée à la qualité de mes collègues chez Altima, j&#8217;ai choisi de d&#8217;abord présenter les acteurs dans cette première partie &#8230; la seconde expliquera la solution !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Présentation des acteurs</strong><br />
Les scénaristes : les architectes techniques du Web développent une capacité de communiquer avec les environnements externes (accéder aux articles, aux stocks, aux fichiers, aux systèmes de paiement, etc..). Ils vivent en permanence dans une dépendance de connectivité pour assurer un fonctionnement optimal des systèmes : tout doit se faire de manière fluide. Mais la nouveauté est leur vitesse de réaction avec 3 à 4 semaines pour mettre &laquo;&nbsp;en pré-prod&nbsp;&raquo;, là où j&#8217;avais à peine fini les spécifications générales ! Les terminologies de &laquo;&nbsp;web services&nbsp;&raquo; m&#8217;ont permis de constater qu&#8217;il n&#8217;est pas besoin &laquo;&nbsp;d&#8217;être propriétaire&nbsp;&raquo; pour garantir le traitement, il faut bien définir les protocoles et les responsabilités de chacun. Dans ce contexte &laquo;&nbsp;SOA&nbsp;&raquo; une nouvelle vision du &laquo;&nbsp;data mining on demand&nbsp;&raquo; s&#8217;est construite. Fred me demandait souvent &laquo;&nbsp;ce qu&#8217;il pouvait m&#8217;apporter&nbsp;&raquo;, il me montra qu&#8217;il était possible d&#8217;être agile là où j&#8217;avais l&#8217;habitude d&#8217;être lourd.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Les paroliers : les traders du trafic Web développent un analyse très fine des &laquo;&nbsp;sources&nbsp;&raquo;, des &laquo;&nbsp;mots clefs&nbsp;&raquo;, des &laquo;&nbsp;origines&nbsp;&raquo; pour construire du discours (le poids des mots), connaitre le positionnement pour acheter et gérer des enchères sur les mots clefs, concevoir et positionner des bannières sur les sites les plus en affinité avec la cible. Ces &laquo;&nbsp;agitateurs de concepts&nbsp;&raquo; travaillent le contenu pour améliorer le &laquo;&nbsp;ranking&nbsp;&raquo; du site, mais avec un budget limité. Le data mining peut contribuer à améliorer cette intelligence du positionnement, mais surtout assurer le meilleur rapport qualité/prix (presque au jour le jour) dans le recrutement des futurs bons clients. Un data mining au service d&#8217;un vrai calcul opérationnel de la valeur des clients, avec une combinaison des origines, des heures et jours de connexions, du profil client pour déterminer la valeur future dans le temps du client. Enfin une valeur client vraiment opérationnelle au quotidien, qui permet de décider des allocations et des choix budgétaires ! Une valeur client mise en place en 3 semaines pour guider les actions, mais aussi les contenus les plus porteurs pour recruter des &laquo;&nbsp;bons clients&nbsp;&raquo;. Tandis qu&#8217;Arnaud m&#8217;expliquait son activité de &laquo;&nbsp;traders&nbsp;&raquo; en temps réel, il me montrait qu&#8217;il était possible d&#8217;intégrer une &laquo;&nbsp;valeur client&nbsp;&raquo; dans une décision d&#8217;achat. Enfin, mon concept clef sortait de sa rhétorique pour entrer dans la finance !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Les artistes : les ergonomes web développent cette volonté de &laquo;&nbsp;séduire&nbsp;&raquo; le visiteur. De créer le &laquo;&nbsp;choc créatif&nbsp;&raquo; (&nbsp;&raquo;faut que ca crache comme dit Yves&nbsp;&raquo;), en travaillant sur &laquo;&nbsp;l&#8217;expérience client&nbsp;&raquo;. Mieux comprendre les attentes des clients, observer les usages, identifier des &laquo;&nbsp;personnae&nbsp;&raquo; (un segment sur l&#8217;utilisation) pour ajuster le design, les codes graphiques, les symboles, les boutons, les menus. Le livre d&#8217;Amélie Boucher sur l&#8217;ergonomie m&#8217;a permis de comprendre que nous faisions le même métier : tous les deux nous cherchons à comprendre le comportement &#8230; mais en ne regardant avec les mêmes outils : pour elle la navigation &#8230; pour moi les transactions, le pile et le face ?. Lorsque mon compère Thomas améliore de 60 % le taux de concrétisation (le CA sur un site !) en agissant sur &laquo;&nbsp;le customer experience&nbsp;&raquo; il montre que la connaissance client se traduit par du tangible (en testant 2 présentations en temps réel). ils me montraient que &laquo;&nbsp;mes segments&nbsp;&raquo; leur permettait de créer des expériences différentes, et de séduire, de faire du CA &#8230; plus que des formules mathématiques arides.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Les &laquo;&nbsp;petits poucets&nbsp;&raquo; : les spécialistes de l&#8217;analytique mettent en place des &laquo;&nbsp;marqueurs&nbsp;&raquo; (les tags) qui permettent de suivre l&#8217;avancée &laquo;&nbsp;pas à pas&nbsp;&raquo; dans le site. Ils sèment les &laquo;&nbsp;tags&nbsp;&raquo;, modélisent des parcours (pipe ou funnel de conversion), déterminent des objectifs pour identifier les &laquo;&nbsp;zones de rupture&nbsp;&raquo;, les moments où le client décroche. Tout ce travail d&#8217;analyse leur permet de localiser la &laquo;&nbsp;question qui fâche&nbsp;&raquo;, l&#8217;écran qui froisse, bref les points de rupture. Ils travaillent à améliorer la fluidité de présentation des questions et des écrans pour optimiser un objectif de collecte d&#8217;informations ou de souscription. Leurs outils intégrent la possibilité de &laquo;&nbsp;suivre&nbsp;&raquo; les taux de conversion en fonction des segments de clients, bref de faire du prédictif à partir de la navigation passée. Lorsque Marie et Ludo montrent que les segments ne réagissent pas de la même manière suite à des questions, ils segmentent une base de données qui sera ensuite traitée de manière différente selon les canaux (téléphone, print, sms, etc..).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Un algorithme génétique &laquo;&nbsp;vivant&nbsp;&raquo;</strong><br />
La caractéristique commune est une collecte rapide de données, une analyse permanente des résultats et une évolution très rapide des dispositifs dans le sens d&#8217;une amélioration de la performance. Une forme presque Darwiniste d&#8217;amélioration de la performance, très éloignée des grandes théories de la gestion du changement. Un mode &laquo;&nbsp;test-learn-improve&nbsp;&raquo; très stimulant, assez proche de mon utilisation des algorithmes génétiques dans mes problèmes d&#8217;optimisation.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">La suite &#8230;. dans 2 semaines.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/quand-le-data-mining-devient-bio-business-intelligence-operationnelle-partie-1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Mettre en évidence les apports de la connaissance client</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/mettre-en-evidence-les-apports-de-la-connaissance-client/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/mettre-en-evidence-les-apports-de-la-connaissance-client/#comments</comments>
		<pubDate>Tue, 23 Sep 2008 13:31:33 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Client]]></category>
		<category><![CDATA[Documentation Datamining]]></category>
		<category><![CDATA[entreprise]]></category>
		<category><![CDATA[Exposes etudiant]]></category>
		<category><![CDATA[segmentation]]></category>
		<category><![CDATA[services]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=269</guid>
		<description><![CDATA[Une question récurrente des data miners est :
&#171;&#160;Comment mieux mettre en évidence les apports du data mining ?&#160;&#187;
Il s&#8217;agit de rendre &#171;&#160;tangible&#160;&#187; les apports de cette connaissance aux yeux des autres services de l&#8217;entreprise (souvent de mettre en évidence son apport personnel). Il faut intégrer que les moyens à mettre en place sont différents selon [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em>Une question récurrente des data miners est :</em></span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em><strong>&laquo;&nbsp;Comment mieux mettre en évidence les apports du data mining ?&nbsp;&raquo;</strong></em></span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Il s&#8217;agit de rendre &laquo;&nbsp;tangible&nbsp;&raquo; les apports de cette connaissance aux yeux des autres services de l&#8217;entreprise (souvent de mettre en évidence son apport personnel). Il faut intégrer que les moyens à mettre en place sont différents selon les types d&#8217;interlocuteurs visés.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Convaincre les équipes commerciales :</strong><br />
Elles sont essentiellement intéressées par les moyens de vendre plus (ou plus facilement). Elles ne souhaitent pas entrer dans l&#8217;analyse des modèles (à priori les data miners sont les spécialistes), mais elles ont besoin de comprendre de manière simple les variables qui ont été prises en compte pour valider la rigueur du travail et vérifier que les variables clefs n&#8217;ont pas été omises.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Il s&#8217;agit d&#8217;être imaginatifs dans la communication du modèle et éviter les probabilités (avoir 35 % de chance peut être compris comme 65 % d&#8217;erreur !), être plus directifs sur la recommandation (5 étoiles = bien &#8230; 1 étoile = mauvais). L&#8217;obstacle de communication doit être vaincu (sinon il n&#8217;y aura pas de relais), mais il faut être rigoureux dans l&#8217;analyse des résultats et prévoir la construction d&#8217;un plan d&#8217;expérience (identifier des dimensions d&#8217;analyse comme l&#8217;ancienneté des vendeurs, le potentiel de la zone, etc..).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Dans certains cas le gain de performance d&#8217;un score A sera important, dans une autre configuration, le même score A sera destructeur !. Un même score d&#8217;appétences peut se révéler &laquo;&nbsp;bon dans un cas&nbsp;&raquo; et &laquo;&nbsp;mauvais dans un autre&nbsp;&raquo;. Ce point est souvent troublant pour un data miner, et il est souvent plus important de comprendre les facteurs clefs de succès que de suivre la seule performance du score. Par exemple, le versement d&#8217;une prime à l&#8217;ouverture expliquera 80 % de la performance &#8230;. dans ce cas le levier est évident : la carotte est plus stimulante que les scores.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Pour assurer la position de la connaissance client auprès des équipes commerciales, il faut se montrer &laquo;&nbsp;humble&nbsp;&raquo; (reconnaitre que parfois cela ne marche pas) et obstiné en analysant les écarts de rendements (entre les éléments du plan d&#8217;expériences et une zone blanche).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Une bonne connaissance client pour les équipes commerciale se construit dans la permanence de la mesure et pas dans la livraison d&#8217;une formule magique. Le vrai succès est la contribution dans les actes de vente.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Convaincre les équipes des centres d&#8217;appels :</strong><br />
Elles sont soumises à des enjeux souvent plus importants de productivité : optimiser le taux de conversion, réduire le temps de l&#8217;appel. Il faut éviter d&#8217;alourdir le temps de traitement des appels et abolir le questionnement complémentaire. Les data miners sont tentés de compléter les scripts de vente par les 2 ou 3 questions qui permettront d&#8217;enrichir la connaissance client. Cette approche se traduit par un allongement des temps de traitement et une destruction de valeur immédiate. Il ne faut pas questionner plus, mais rester sur le même temps de traitement. Pour toute nouvelle information, il faut en supprimer une autre &#8230; à priori si la donnée est plus utile, elle doit permettre de gagner en performance immédiate et future.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Le deuxième défaut est de vouloir enrichir l&#8217;écran des télé acteurs avec des codes et des enrichissements permettant de mieux &laquo;&nbsp;comprendre&nbsp;&raquo; le client. A l&#8217;identique des équipes commerciales, il faut être imaginatif et simple dans la communication visuelle. L&#8217;usage des codes couleurs et des dénominations simples doit prévaloir. Un client à choyer = Smile . Il n&#8217;est pas facile de mémoriser la description du segment &laquo;&nbsp;S2&#8243; et illusoire de croire que le télé-acteur puisse aller sur le site Intranet pour en lire sa définition.<br />
Le plus important est de définir les argumentaires, les réponses et les propositions en fonction de la connaissance client.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Un des facteurs clefs de succès est de s&#8217;assurer que la connaissance client donne plus de souplesse et de réactivité pour le  télé-acteur &#8230; si la connaissance client lui donne plus de réactivité, de souplesse &#8230; et de pouvoir de décision elle sera acceptée. Bien évidemment faire sauter les règles de délégation nécessite de mettre en place des mécanismes de contrôle pour rassurer les équipes d&#8217;audit et de contrôle sur le gain apporté. Il faudra donc mettre en place des mesures de la performance des &laquo;&nbsp;nouveaux processus&nbsp;&raquo; comparativement aux processus ou tous les clients sont traités de manière identique.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Une bonne connaissance client au centre d&#8217;appels donne des résultats rapides : le commercial qui a fait plus de ventes grâce à votre score en parle rapidement à la cafétéria.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>Convaincre les Décideurs :</strong><br />
Évidemment, il s&#8217;agit du plus compliqué. Elles sont avides de mieux comprendre et interpréter le comportement des clients pour les aider dans la prise de décision. Il faut néanmoins s&#8217;assurer d&#8217;une certaine forme de stabilité dans le temps. La livraison de modèles tous les 15 jours finit par créer de la turbulence dans les esprits. Le data miner doit s&#8217;assurer que la connaissance livrée a été reçue par sa hiérarchie. Avant de faire un second pas, on s&#8217;assure que le message a été capté (un peu comme au tango).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">S&#8217;agissant de la stratégie de l&#8217;entreprise, il est important de valider par des études externes la pertinence de la connaissance. Il est malheureusement fréquent de constater qu&#8217;une connaissance construite sur de l&#8217;interne aboutisse à une vision érronée des segments ou de la valeur des clients, et des opérations à contre sens.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">La logique de pilotage et d&#8217;introduction de la connaissance client dans les éléments de reporting doit être mise en place. Il faut cependant s&#8217;attacher à mesurer les apports de cette connaissance dans la mesure des indicateurs clefs. En quoi la connaissance client me permet de comprendre et d&#8217;optimiser ma performance (CA, marge, volume).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Une bonne connaissance client pour la Direction modifie la prise de décision : la logique de segmentation commence à guider les investissements techniques et humains.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">En conclusion, une bonne connaissance client est une connaissance utile :<br />
- pour vendre,<br />
- pour traiter les demandes clients,<br />
- pour prendre des décisions.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Il ne s&#8217;agit en aucun cas de faire &laquo;&nbsp;une œuvre d&#8217;art statistique&nbsp;&raquo;.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/mettre-en-evidence-les-apports-de-la-connaissance-client/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Les 11 points pour faire une bonne segmentation</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/les-11-points-pour-faire-une-bonne-segmentation/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/les-11-points-pour-faire-une-bonne-segmentation/#comments</comments>
		<pubDate>Thu, 19 Jun 2008 13:47:02 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Analyse]]></category>
		<category><![CDATA[Client]]></category>
		<category><![CDATA[Documentation Datamining]]></category>
		<category><![CDATA[Donnees]]></category>
		<category><![CDATA[Marketing]]></category>
		<category><![CDATA[scoring]]></category>
		<category><![CDATA[segmentation]]></category>
		<category><![CDATA[stastisque]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=273</guid>
		<description><![CDATA[La construction d’une segmentation est complexe à mettre en œuvre pour un débutant en statistique ou en marketing.
En effet, à la différence d’un score, où il s’agit de modéliser un comportement (achat, fraude, départ, etc..) à partir des données descriptives ou comportementales, il n’existe pas 1 segmentation à découvrir, mais bien de choisir la « [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em><strong>La construction d’une segmentation est complexe à mettre en œuvre pour un débutant en statistique ou en marketing</strong>.</em></span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">En effet, à la différence d’un score, où il s’agit de modéliser un comportement (achat, fraude, départ, etc..) à partir des données descriptives ou comportementales, il n’existe pas 1 segmentation à découvrir, mais bien de choisir la « meilleure segmentation ». On ne sait pas ce que l’on cherche, mais il faut essayer de le trouver avec des techniques comme les analyses en composantes principales, en correspondances, canoniques, etc.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Il existe bien les principes « marketing » d’une bonne segmentation (accessible, substantielle, etc.) mais ils ne donnent aucune indication sur « comment faire une segmentation ».</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Pour aider les jeunes marketeux, voici quelques principes à respecter tirés de ma « longue expérience ».</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>1- Bien valider le besoin</strong><br />
La première étape d’une segmentation consiste à comprendre les objectifs et attentes de l’entreprise vis-à-vis de cette segmentation : amélioration de la communication, refonte des produits, amélioration de la performance commerciale, etc. Souvent, les objectifs ne sont pas formulés de manière claire et parfois ils ne sont pas convergents au sein de la même organisation : le Directeur Général n’a pas les mêmes attentes qu’un Directeur Marketing … il est donc important de hiérarchiser et valider les objectifs (quitte à faire trancher !).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>2- Sélectionner les « bonnes » données</strong><br />
La sélection des données est une phase critique dans le processus qui peut fausser toute l’analyse. Il faut naviguer entre 2 tentations  :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em>a. la paresse</em> : ne prendre que les données disponibles et/ou les données traditionnelles et donc avoir une segmentation .. qui ne fait qu’ordonner ce que l’on savait déjà (donc une déception en livraison),</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><em>b. l’ambition</em> : vouloir prendre toutes les données en croyant naïvement que les techniques statistiques y retrouveront les « bonnes variables » (donc une jungle de possibilités).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">La volonté « de faire » vite peut conduire à ne prendre que les données immédiatement disponibles et donc louper les objectifs de décodage d’un marché. La sélection des « bonnes données » passe également par une approche de collecte équilibrée des données par « concept » (client / achat / point de vente / activité / canaux / etc…) avec un respect des poids entre les différents concepts …. si vous avez 50 variables sur les achats .. et 1 variable sur l’age du client… vous aurez une segmentation … sur les achats … inutile pour animer un plan  fichier ! (à la limite le RFM est plus pertinent).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>3- Prendre les « clients significatifs »</strong><br />
La construction d’une segmentation doit s’attacher à comprendre les « comportements » des clients. Il faut donc éviter de sur-représenter dans la base d’analyse des clients disparus .. ou des strates de clients « non captables » avec les offres actuelles. Un fichier contenant 25 % de clients inactifs (avec des lignes parfaites de 0 ou de valeurs inconnues) conduira n’importe quelles techniques statistiques à comme représentatif un comportement majeur d’inactivité et prendra tous les autres clients comme des « satellites » de ce comportement  (les acheteurs). Dans ce contexte, les acheteurs apparaissent presque comme des aberrations  .. qui deviennent difficiles à organiser. Vouloir expliquer la « vie » comme une aberration de la « mort » n’est pas une bonne base de départ. Si vous analysez un fichier avec 20 % d’inactifs et 15 % de clients acquis par des mécanismes de jeu … vous comprenez le risque de faire une segmentation inutile et instable.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>4- Nettoyer les variables</strong><br />
Il existe toujours des données aberrantes qui peuvent avoir des impacts importants sur la direction des axes d’analyse (la fameuse force des axes). Les points « incomplets » ou « aberrants » peuvent traduire soit des erreurs de saisie, soit des mélanges de populations hétérogènes : mélanger dans une analyse sur les flux d’un compte bancaire des « entreprises internationales » et des « particuliers » se traduira par un rapprochement de-facto des cadres dirigeants à 250.000 euros/an avec les revenus à 15.000 euros… regroupés fictivement car très distants des Milliards de flux de Total par exemple. La vie quotidienne nous permet d’apprécier qu’il existe des différences notables entre les 2 profils de salariés ci-dessus !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>5- Sélectionner les « variables actives »</strong><br />
Une étape de la segmentation consiste à évaluer les corrélations et les dépendances entre les variables pour tenter de distinguer des « dimensions ». Une dimension est d’autant plus forte que de nombreuses variables y contribuent. Il faut savoir progressivement exclure certaines variables, très corrélées à d’autres pour faire émerger d’autres dimensions. La sélection des variables actives doit se faire sur des notions de qualité (taux de renseignement), de coût d’obtention (âge plus facile à obtenir que revenu), de communication (le log du CA est plus difficile à interpréter que le nombre d’enfants), de façon à « réduire » le poids des axes principaux … et faire monter les « axes émergents ». Ce poids choquera les « maniaques du pouvoir de représentation », mais les segmentations « grands crus » comme les « grands vins » ont des arômes.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>6- Savoir « creuser les dimensions »</strong><br />
La lecture des premières dimensions est souvent  assez peu révélatrice d’informations nouvelles. On y retrouvera nécessairement … les données que l’on y a entrées, et les intuitions que l’on avait avant de commencer. Bref, on a mouliné des tonnes de données pour sortir des évidences. Il s’agit certes d’un élément rassurant car on ne déstabilise pas les équipes marketing ou commerciales (parfois elles aiment ne pas être bousculées), mais il ne faut pas se contenter de lire les 4 ou 6 premiers axes, et savoir aller regarder un peu plus profond .. pour découvrir des comportements émergents dans les axes 8 à 12. Il faut poursuivre les investigations pour identifier les variables et les individus qui construisent ce comportement émergent et particulier. Ainsi, comprendre les « usages du Web Mobile » dans une population d’abonnés de téléphones mobiles … n’est jamais dans les 5 premiers axes, mais savoir le lire très tôt permet de « prendre de l’avance » sur le marché.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>7- Définir la taille et le nombre des segments</strong><br />
La sélection du nombre de groupes est souvent guidée par plusieurs contraintes :</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">a. <em>les capacités de mémorisation du public</em>… au-delà de 7- 8 segments, il devient difficile de retenir l’ensemble des groupes pour des non experts,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">b. <em>les capacités de différenciation</em>… créer 12 segments … pour mettre en œuvre 2 politiques de communication est sur-segmenter,</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">c. <em>les contraintes des coûts fixes</em> : avoir des segments trop étroits les rend inopérables au niveau économique, mais attention si un segment pèse 1% en effectif, mais 20 % en revenus … il se justifie de-facto, car le perdre peut se traduire par la fin d’activité.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">La taille n’est donc pas seulement une logique d’effectif, il faut regarder la taille des segments sur des dimensions de CA, de marge, de coûts, de visites, etc.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>8- Construire un arbre d’affectation intelligible</strong><br />
Il faut pouvoir comprendre pourquoi un individu appartient à un segment, afin de pouvoir mettre en place le programme d’affectation dans les bases de données (et afficher le code segment au centre d’appels par exemple), car cela permet de suivre et interpréter les migrations. Le fait d’être dans le segment A en 2007 et de passer en 2008 dans le segment B doit se comprendre comme une modification d’un ou n critères. Ma philosophie d’affectation s’est progressivement améliorée au cours du temps avec l’évolution des techniques de data mining, le plus simple actuellement est d’utiliser des arbres de décision pour construire les programmations d’affectations, mais il existe aujourd’hui d’autres possibilités (scores comparatifs, marquages sémantiques sous SPAD).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>9- Tester et mesurer la stabilité</strong><br />
Il faut évaluer la stabilité dans le temps de la segmentation avant de la communiquer. Il est important de tester sur 2 ou 3 périodes la répartition en structure des segments (passer de 15 % en 2007 à 4 % en 2008 sur le segment A … est suspect), ainsi que de comprendre les migrations entre les segments. De trop forts mouvements peuvent révéler des problèmes de conception (et donc d’opérationnalité de la segmentation).</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>10- Savoir communiquer</strong><br />
Il faut « marquer les esprits » des utilisateurs potentiels. Le choc des « noms » et le poids des « mappings » pour paraphraser un tabloïde célèbre !. La technique statistique doit disparaître pour donner de la « chair et du sang » aux segments et aux dimensions. Il faut savoir les nommer, les positionner, les interpréter et les rendre vivants aux yeux des futurs utilisateurs. Une bonne segmentation se vend, et son succès se mesure par le fait qu’elle échappe aux mains des statisticiens. Lorsque le segment des « opportunistes ou des éclectiques » passent dans le langage des équipes commerciales … c’est gagné !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;"><strong>11- Avoir une ligne directrice</strong><br />
Relire entre chaque étape les éléments attendus dans la phase 1 : les objectifs sont-ils toujours présents. Dans mon vécu, la prise en main par n acteurs (avec des objectifs différents) dans un dispositif de segmentation peut conduire au final à sortir une segmentation « compromise », c’est-à-dire qui a perdu toute sa saveur. Relire et tenir les objectifs !</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Dans les études statistiques, réaliser une segmentation reste malgré tout « un chef d’œuvre » au sens noble du terme, car il faut mettre de « l’âme » dans la lecture et l’interprétation que l’on va faire des données.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">A ce jour, je reste encore dubitatif devant les « segmentations automatiques » qui font des groupes, mais n’apportent pas de réponses à des problématiques stratégiques.</span></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><span style="font-family: georgia,palatino;">Un jour, peut-être les techniques me démentiront, mais pour l’instant j’avoue avoir toujours autant de plaisir à faire des segmentations, même si « j’aurais pu aller » plus vite. Mais le temps de faire « accepter » une segmentation est de toute façon beaucoup plus long que de la construire, mais c’est un autre article.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/les-11-points-pour-faire-une-bonne-segmentation/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Data Mining et Prostitution</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/data-mining-et-prostitution/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/data-mining-et-prostitution/#comments</comments>
		<pubDate>Sun, 23 Mar 2008 13:29:28 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Data]]></category>
		<category><![CDATA[Donnees]]></category>
		<category><![CDATA[Internet]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=266</guid>
		<description><![CDATA[Décidément le Data Mining n&#8217;en finit plus de faire parler de lui&#8230;
Après le document sur les projets de recherche dans le domaine du terrorisme, on apprend que le FBI a utilisé son &#171;&#160;hangar à données&#160;&#187; (dénommé Investigative Data Warehouse) et des techniques de data mining pour identifier les mouvements financiers à la limite du seuil [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;"><em><strong>Décidément le Data Mining n&#8217;en finit plus de faire parler de lui&#8230;</strong></em></span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Après le document sur les projets de recherche dans le <span style="color: #000000;"><strong>domaine du terrorisme</strong></span>, on apprend que le <span style="color: #000000;"><strong>FBI</strong></span> a utilisé son &laquo;&nbsp;hangar à données&nbsp;&raquo; (dénommé Investigative Data Warehouse) et des techniques de data mining pour identifier les mouvements financiers à la limite du seuil de déclaration (seuil de 10.000 dollars).</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">La mise en œuvre de ce type de détection a été à l&#8217;origine du scandale Spitzer, et de sa démission.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Sans décrire les techniques utilisées, l&#8217;article de Francis Pisani pose les bonnes questions sur le stockage et l&#8217;utilisation de ces données (700 Millions de flux par mois !)</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;"><a href="http://pisani.blog.lemonde.fr/2008/03/17/prostitution-20-et-controle-tic/" target="_blank">http://pisani.blog.lemonde.fr/2008/03/17/prostitution-20-et-controle-tic/</a></span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Bientôt on pourra dire que le data mining aura joué un rôle certain dans le choix du candidat démocrate &#8230; et peut-être du futur président ou présidente des États Unis. Enfin un peu de sang neuf pour présenter les applications en lieu et place des traditionnelles &laquo;&nbsp;bières et couches culottes&nbsp;&raquo;.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Plus sérieusement, il est vraiment temps de s&#8217;interroger sur les limites des techniques et le respect de la vie privée, car à ce rythme &#8230;. nous serons tous potentiellement coupables de &laquo;&nbsp;quelque chose&nbsp;&raquo;.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/data-mining-et-prostitution/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Applications du Data Mining dans la lutte anti-terroriste</title>
		<link>http://www.blog-crm.com/documentation-outils-datamining/applications-du-data-mining-dans-la-lutte-anti-terroriste/</link>
		<comments>http://www.blog-crm.com/documentation-outils-datamining/applications-du-data-mining-dans-la-lutte-anti-terroriste/#comments</comments>
		<pubDate>Wed, 12 Mar 2008 13:23:34 +0000</pubDate>
		<dc:creator>René Lefebure</dc:creator>
				<category><![CDATA[Datamining]]></category>
		<category><![CDATA[Analyse]]></category>
		<category><![CDATA[Data]]></category>
		<category><![CDATA[Documentation Datamining]]></category>
		<category><![CDATA[Donnees]]></category>
		<guid isPermaLink="false">http://www.blog-crm.com/?p=262</guid>
		<description><![CDATA[Un document du 15 Février 2008 de l&#8217;ODNI (Office of the director of National Intelligence) &#171;&#160;non classé&#160;&#187; présente les projets de recherche Data Mining dans le cadre de la recherche anti-terroriste.
Ce document donne une définition spécifique du data mining : &#171;&#160;Le data mining est un programme utilisant des requêtes, des recherches ou des analyses dans [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;"><em><strong>Un document du 15 Février 2008 de l&#8217;ODNI (Office of the director of National Intelligence) &laquo;&nbsp;non classé&nbsp;&raquo; présente les projets de recherche Data Mining dans le cadre de la recherche anti-terroriste</strong>.</em></span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Ce document donne une définition spécifique du data mining : &laquo;&nbsp;Le data mining est un programme utilisant des requêtes, des recherches ou des analyses dans une ou plusieurs bases de données afin de découvrir ou localiser des formes prédictives ou des anomalies indicatrices d&#8217;un acte terroriste ou criminel&nbsp;&raquo;. Une définition certes différente de la définition traditionnelle, mais le document expose clairement les problématiques spécifiques à la recherche de formes (pattern) pour identifier et prédire un comportement.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Les domaines du risque ou du marketing cherchent eux aussi à identifier et prédire des comportements de mauvais payeurs ou d&#8217;acheteurs.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">A ce titre, ces projets de recherche risquent d&#8217;avoir des impacts &laquo;&nbsp;commerciaux&nbsp;&raquo; à moyen terme dans l&#8217;analyse et le comportement des clients.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">L&#8217;identification et la recherche de formes se distinguent de la recherche de liens (link analysis) qui consiste à partir d&#8217;un fait pour identifier tous les éléments pouvant avoir une relation avec ce fait. Il s&#8217;agit de l&#8217;opposition traditionnelle entre l&#8217;approche confirmatoire où l&#8217;on part d&#8217;une hypothèse et on valide les faits ayant un lien avec cette hypothèse et l&#8217;approche exploratoire du data mining qui consiste à &laquo;&nbsp;balayer&nbsp;&raquo; l&#8217;espace des données pour identifier les &laquo;&nbsp;formes fortes&nbsp;&raquo;.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">La problématique de croissance des données et la difficulté d&#8217;identifier les informations pertinentes sont traditionnelles, mais dans le contexte spécifique du terrorisme la rapidité de réaction est un élément différenciateur du marketing ou du risque où le facteur temps ne revêt pas un caractère aussi critique.<br />
Les outils de data mining sont mis en place pour aider les intervenants humains dans la détection et l&#8217;analyse de &laquo;&nbsp;formes suspectes&nbsp;&raquo;. Alors que dans les entreprises le data mining est un élément de compétitivité en permettant de mieux comprendre ou analyser les données, dans le domaine de la recherche anti-terroriste, le data mining est un moyen de mettre en relation de nouvelles sources d&#8217;informations et de permettre une collaboration entre des organismes internationaux.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Il semble donc que ce projet de recherche vise à systématiser et industrialiser les méthodes de recherche.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Le rapport présente 4 types de projets :<br />
- le <strong>projet Tangram</strong> qui vise à surveiller des entités connus pour leur lien avec des activités terroristes et évaluer la possibilité de construire des méthodes de détection pouvant alerter les autorités sur des modifications de comportement d&#8217;une entité identifiée et effectuer des recherches de formes &laquo;&nbsp;terroristes&nbsp;&raquo; sur des entités non encore identifiées.<br />
- le <strong>projet VACE</strong> (Vidéo Analysis Content Extraction) vise à automatiser le processus de surveillance Vidéo avec la détection des objets suspects, la reconnaissance et la modélisation des formes suspectes (laisser un sac dans un lieu public), l&#8217;indexation des vidéos pour la recherche de suspects.<br />
- le <strong>projet PAINT</strong> (ProActive Intelligence) qui vise à étudier la dynamique des organisations au travers de la recherche de diagrammes de causalité prédictifs d&#8217;activité dangereuse.<br />
- le <strong>projet REYNARD</strong> qui vise à étudier le phénomène émergent des communautés virtuelles et des jeux en réseaux. Il s&#8217;agit de mieux comprendre les comportements, les mécanismes de socialisations et les normes dans les communautés pour étudier ensuite la possibilité de détecter automatiquement des comportements suspects.</span></span><span style="font-family: georgia,palatino;"><span style="font-size: medium;"><a href="http://www.blog-crm.com/wp-content/uploads/2010/02/camerasurveillance.jpg"><img class="alignright size-full wp-image-263" title="camerasurveillance" src="http://www.blog-crm.com/wp-content/uploads/2010/02/camerasurveillance.jpg" alt="" width="146" height="184" /></a></span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;"><br />
</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Les difficultés dans ce type de problématique sont nombreuses :<br />
- données incomplétes, inexactes et manquantes,<br />
- multiplications des hypothèses de recherches,<br />
- risque important de &laquo;&nbsp;fausses détections&nbsp;&raquo;,<br />
- multiplications des sources de données,<br />
- hétérogénité des supports.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Que peut-on attendre de ces recherches pour les applications traditionnelles ?</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Il est évident que la recherche de formes complexes et dynamiques est un point qui est peu traité par les techniques actuelles de data mining. Certains outils permettent d&#8217;industrialiser la création des scores et des segmentations en associant des variables, mais on reste encore dans un domaine &laquo;&nbsp;restreint&nbsp;&raquo; aux données traditionnelles, des &laquo;&nbsp;formes pas trop complexes&nbsp;&raquo; et pas du tout d&#8217;analyses dynamiques.<br />
La mise en oeuvre de projets pour identifier des formes plus complexes (des chaînes de causalité plus longues), identifiées sur des ensembles de données restreintes et présentant les enchainements de causalité est évidemment un challenge important pour les entreprises à la recherche des &laquo;&nbsp;fraudeurs&nbsp;&raquo; ou des &laquo;&nbsp;impayés&nbsp;&raquo;.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">Et le respect de la vie privée &#8230;&#8230;.</span></span></p>
<p style="text-align: justify;"><span style="font-family: georgia,palatino;"><span style="font-size: medium;">L&#8217;article aborde ce point en profondeur.</span></span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.blog-crm.com/documentation-outils-datamining/applications-du-data-mining-dans-la-lutte-anti-terroriste/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
