A l’heure où les Big Data deviennent chaque jour un peu plus présents dans la démarche de construction de l’intelligence marketing, faut-il revoir la copie quant à l’importance de la représentativité des études ? Et si oui selon quel cheminement intellectuel pour atteindre l’opérationnalité maximale du marketing sans tomber pour autant dans l’aveuglement ?

Le point de vue d’Hervé Tranger (directeur Méthode et Process du groupe BVA) et de Thierry Vallaud (directeur du Département Data Sciences du groupe BVA).

Avec l’avènement des Big Data, la volumétrie des données a tendance à remettre en question le concept de représentativité. Souvent utilisé, rarement interrogé, ce concept est-il toujour aussi fondamental qu’il ne l’était par le passé ?

La représentativité, c’est le contrôle de la structure de l’échantillon sur différentes variables au regard d’une référence donnée. Elle permet d’analyser des mesures issues d’un échantillon en autorisant la comparaison avec d’autres mesures issues d’échantillons ayant la même structure. Elle permet également d’inférer les résultats observés sur un échantillon à sa population de référence. C’est la nature de la mesure analysée qui dicte la notion de représentativité et au-delà de leur nombre.

Un bon échantillon 1000 cas NatRep (national représentatif sur les variables Sexe, Age, CSP région et taille d’agglomération) apporte la caution « scientifique » pour extrapoler et diffuser les résultats d’un sondage. Mais que penser par exemple d’une enquête sur l’école dans laquelle la variable de structure familiale n’est pas contrôlée ?

C’est là que nous allons vous surprendre en allant à l’encontre du discours dominant. Une grosse base donnée n’est représentative que d’elle-même et il faut en avoir bien conscience. La base de données des clients qui ont la carte d’un magasin de 5 M d’individus est un sous-ensemble qui n’est pas représentatif de l’ensemble des clients de cette enseigne et cela malgré cette taille « impressionnante ». La gigantesque base de Facebook, le plus souvent des personnes qui postent des photos de chatons sur leurs profils, ne représente pas la culture dominante comme on voudrait nous le laisser croire : même si nous trouvons tous les chatons « très mignons » et les réseaux sociaux de magnifiques outils de communication.

Pourtant la représentativité n’est pas toujours l’objectif premier d’un échantillonnage. Dans une démarche de segmentation ou de typologie, la première qualité du jeu de données recherchée par l’analyste est la dispersion des profils de répondants. Ce n’est qu’en phase finale de la démarche, lors de la mesure du poids des segments ou des groupes, que la notion de représentativité est réintroduite. La représentativité est pertinente pour construire des mesures, des indicateurs qui pourront être comparés entre eux, mais elle devient mois utile pour analyser et comprendre des comportements individuels.

Avec le « tout data », la donnée individuelle, plus nombreuse, plus accessible, a permis de considérablement développer les analyses sur les profils et les comportements des individus. Cette évolution permet l’émergence du marketing de l’individu : en agissant au niveau de granularité la plus fine, l’individu, nul besoin de remonter à la population de référence pour réaliser des actions sur tous ou quelques segments.

Mais à force de raisonner sur l’individu, il est tentant de généraliser les comportements individuels dans un grand tout qui n’est qu’une somme d’individualité. Le danger, réel, est alors d’oublier ce que représente la base sur laquelle on agrège : d’oublier la notion clef de représentativité. Dans cette seconde approche « individuelle » on ne prend plus de recul et on risque de prendre un effet marginal pour une loi générique. Mais les protagonistes un peu simplificateurs du big data disent « les corrélations suffisent, à quoi bon comprendre les causes » : si l’on prend cette affirmation au premier degré le calcul du nombre de parapluies ouverts permet d’en déduire qu’il pleut !! C’est vrai, mais où est la compréhension de la cause ? Face à cela, les études ont longtemps été un moyen de réaliser des mesures sur des échantillons « représentatifs » des citoyens, des consommateurs, des clients. Inspirée par la sociologie, cette démarche a nourri le « marketing de masse » dans un premier temps, puis un marketing du ciblage.

Etre déjà capable de se poser ce type de questions est à notre avis indispensable à tout démarche analytique et signe de maturité. La bonne démarche analytique c’est de ne pas opposer les deux approches, mais de miser sur leur complémentarité en échantillonnant des grosses bases de données en sous-échantillons représentatifs pour vérifier les phénomènes observés : bien sélectionner des échantillons raisonnés pour s’assurer de la représentativité des analyses.

Par exemple, le modèle de Google basé sur le search de la grippe ne marche pas à tous les coups pour prédire avec exactitude la propagation de la grippe. Il est nécessaire de redresser, de pondérer avec d’autres sources, de réfléchir plus pour aboutir à des résultats plus pertinents. Le développement des mesures « à chaud » ne se soucie pas de la généralisation de l’information, les épiphonèmes suffisent si c’est rapide et pas cher, si c’est simple et visuel. La plupart des sociétés multinationales qui analysent le contenu du web social commence aujourd’hui leur réunion en proposant un échantillon des verbatim sur un sujet donné pour bien étudier un phénomène précis sur la toile. Pourtant il n’y a pas si longtemps les mêmes parlaient d’exhaustivité pour mesurer des signaux faibles. Les mentalités évoluent.

Cette évolution reflète un positionnement épistémologique qui devrait être celui des instituts garant du sens de ce qu’il mesure .que la données soient « small » ou « big ». Ces mesures représentent une avancée phénoménale dans la gestion de la relation client par une accélération de la réactivité des acteurs. Cette tendance, qui permet d’améliorer le déploiement opérationnel des orientations marketing, présente un risque d’aveuglement lié au suivi des KPI en temps réel. Interview parue dans Market Research News :

Ceci ne peut avoir de sens que s’il s’inscrit dans une stratégie pensée, priorisée, évaluée, étape pour laquelle le sens apporté aux mesures, et donc la bonne représentativité des mesures, restent selon nous indispensable. Les différentes approches ne s’opposent pas elles se complètent. Toute analyse basée sur des données présente des marges d’erreur. Contrôler la précision des mesures, c’est limiter les risques d’erreur dans les prises de décision.

Ce questionnement méthodologique systématique sur la représentativité c’est un savoir-faire reconnu du market research. Il faut le mettre en avant car plus que jamais il est utile. Il ne faut pas cesser de le rappeler, c’est éthiquement très important pour nous, pour vous et pour la société dans son ensemble.

Interview parue dans Market Research News.