Partager l'article

Datamining et big data : de nouvelles opportunités en B2B

Pour François Bancilhon*, expert du big data et de l'open data, il existe des opportunités à saisir du côté du B2B. Jusqu'à présent, ce marché ne bénéficiait pas d'outils ou d'analyses big data ou datamining vraiment pertinents. Mais une nouvelle initiative, saluée par le Concours Innovation 2030, pourrait changer la donne...


Que reste-t-il du datamining à l'heure du big data et du fast data ?

La datamining n'a pas disparu mais il apparaît souvent au second plan aujourd'hui. Disons que c'est une des technologies de traitement de données mises en œuvre dans le big data. Ainsi, faire de la segmentation, de l'enrichissement, de la classification ou de la recherche de données, c'est faire du datamining ou du big data. Les différences portent sur les volumes de données, plus importants avec le big data.

Quant au terme de fast data, il concerne la capacité de faire du big data de façon très rapide, parfois même en temps réel. Cette rapidité d'exécution est nécessaire dans de nombreux cas, qui vont des enchères en temps réel (Real Time Bidding ou RTB) à la suggestion personnalisée de produits sur un site d'e-commerce.

Quelles entreprises sont concernées par le big data ?

Toutes les entreprises sont naturellement concernées par les datas ou par le dataminig, dès lors qu'elles doivent connaître leur environnement. Même les professions artisanales ou traditionnelles sont concernées. Dans le domaine du big data, les entreprises françaises sont plutôt bien placées : elles n'auraient qu'un an de retard environ, si l'on en croit certaines estimations assez récentes comme celles faites par Talend, par exemple.

Selon moi, il existe de nombreuses start-up et initiatives remarquables en France dans le big data et l'open data, qui nous placent dans le peloton de tête. Quant aux grandes entreprises, après avoir adopté le datamining il y a quelques années, elles ont globalement pris conscience, depuis environ 18 mois, de la nécessité de suivre le nouveau mouvement.

Certains métiers ont démarré en avance, notamment dans les banques, les assurances, l'automobile, la grande distribution, les voyages ou l'hôtellerie... et on peut observer que tous les secteurs en cours de disruption, ou menacés de l'être, sont mobilisés. A l'exception peut-être de domaines comme les médias ou la presse qui, me semble-t-il, n'ont pas pris la pleine mesure des menaces et opportunités liées au big data. De façon générale, la présence ou l'absence d'un Chief Data Officer est parfois un bon indicateur du niveau de compréhension et d'engagement d'une entreprise.

Qu'en est-il du niveau d'engagement des collectivités dans les domaines du big data et de l'open data ?

Selon mon expérience, elles ont surtout bien compris l'intérêt de l'open data, c'est-à-dire de l'ouverture de leurs données au public, dans une démarche citoyenne. Elles se sont montrées très actives sur ce plan, notamment avec le soutien d'Etalab ou via l'initiative fédératrice Open Data France. Elles ont aussi gagné en maturité et progressivement abandonné l'illusion suivant laquelle l'open data pouvait être un facteur significatif de création d'emploi... Mais elles n'ont peut-être pas encore pris la pleine mesure des possibilités que leur donne l'analyse big data de ces données.

Votre projet C-radar, qui concerne le big data appliqué au B2B, a été sélectionné lors du Concours Innovation 2030. Pouvez-vous le présenter ?

En effet, il fait partie des 58 premiers projets retenus dans le cadre de la phase d'amorçage du Concours mondial d'innovation, lancé par le gouvernement en décembre 2013. Il bénéficie à ce titre d'un accompagnement.

Pour comprendre l'origine de ce projet, il faut rappeler que jusqu'alors, chez Data Publica, nous avions plutôt défini notre activité comme étant des "sourceurs de données", à destination des entreprises, associations et autres institutions. Au départ, nous avions donc plutôt une approche généraliste : on nous demandait de récupérer et d'analyser des données complexes ou difficiles à réunir, puis de les livrer sous forme de flux, de DataViz ou sur étagères.

Mais sur la base des demandes et échanges avec une quarantaine de clients, nous avons progressivement développé une spécialisation : l'identification des entreprises présentant telles ou telles caractéristiques. Nous avons ainsi constaté l'émergence et la pertinence d'une technologie particulière, axée sur le recueil systématique des donnés d'entreprise. C'est dans ce cadre que nous avons progressivement monté le projet C-radar.

Quelles sont les données B2B utilisées et qu'est-ce qu'une analyse big data peut en extraire ?

Aujourd'hui, les données disponibles sur les entreprises sont presque toujours les mêmes : elles proviennent de l'INSEE (pour les données administratives) et d'Infogreffe (pour les données financières). A ces données, nous avons ajouté l'analyse big data de sources supplémentaires : les sites web des entreprises, les réseaux sociaux sur lesquels elles s'expriment, et les médias qui en parlent.

Notre référentiel général porte sur 1,3 millions d'entreprises environ. Mais nous nous focalisons sur les quelque 800 000 qui disposent d'un site web, et près de 350 000 entreprises font l'objet d'une analyse complète (sites, réseaux sociaux, médias). Tout cela nous donne une vision globale du tissu économique français.

L'analyse spécifique de ces données est proposée aux services marketing ou vente des entreprises du marché B2B pour, par exemple :

• analyser leurs marchés (caractérisation et segmentation de leurs bases clients, analyse et bilan de stratégie...),

• identifier de nouveaux marchés (trouver tous les sous-traitants automobiles de France, par exemple...),

• donner un score à leurs prospects (priorisation des actions commerciales) et trouver de nouveaux clients.

Quelles méthodologies big data employez-vous ?

Au quotidien, à la manière des moteurs de recherche ou des outils datamining, nous lançons des opérations de crawling sur plusieurs millions de pages d'entreprises (sites web, réseaux sociaux, médias). Ensuite, nous procédons au scraping, qui consiste à aspirer le contenu d'un site en fonction de sa structure bien identifiée et comprise. L'opération suivante est l'apprentissage automatique ou machine learning qui débouche sur des recommandations. Quant à la segmentation ou clustering, elle constitue des groupes d'entreprises réunies suivant des critères qui puissent faire sens. Enfin des analyses statistiques sont lancées pour servir de base à une stratégie.

Pour en revenir au machine learning, cette méthode est déjà bien connue sur les sites d'achat grand public, où l'on recommande un produit en fonction de ceux que le client a appréciés. Dans notre cas, on s'appuie sur l'analyse des ventes réussies : si vous avez vendu à telle entreprise, vous pourrez probablement vendre à telle autre dont le profil est similaire. Cette méthode est très novatrice et elle n'est proposée que par quelques prestataires, dont un aux Etats-Unis et un autre en Grande Bretagne. Quant au retour qui nous est fait par nos clients depuis le lancement de C-radar en janvier 2014, il est déjà très positif.

Ces analyses sont-elles accessibles aux PME ou réservées aux grandes entreprises ?

L'analyse de marchés est intéressante pour de nombreuses entreprises, y compris des startups ou des PME. Avec C-radar, nous sommes en mesure d'identifier ou de vérifier l'existence d'un marché, de le suivre, et de comprendre ses évolutions. Quant aux méthodes d'analyse qui s'appuient sur la base installée de clientèle, elles dépendent de la taille de cette base plutôt que sur celle de l'entreprise. Parmi nos clients, nous comptons plusieurs startups et PME.

Il faut aussi souligner que nous travaillons en mode projet avec nos clients : ce sont eux qui ont la connaissance métier et qui in fine peuvent donner du sens à des analyses chiffrées. Nos interactions sont donc très riches et permettent de porter un regard neuf sur l'activité analysée. Le big data ne vient pas remplacer l'expertise humaine : il vient la renforcer !

 

*François Bancilhon est co-fondateur et directeur de Data Publica. Lauréat du Concours Innovation 2030 du gouvernement dans la catégorie "big data". Audité au Sénat par la Mission commune d'information sur l'accès aux documents administratifs et aux données publiques.

Big Data, Open Data

Partager l'article