Un algorithme, aussi puissant soit-il, nécessite l’intervention d’une ou un data scientist pour produire de bons résultats. Le rôle de la data scientist se trouve aussi bien en amont qu’en aval de l’utilisation d’un algorithme de machine learning.

Tout d’abord, il faut récupérer les données et les nettoyer, par exemple en gérant les valeurs manquantes. Ont-elles un sens ? Faut-il les imputer, c’est-à-dire les remplacer par la moyenne, la médiane, le mode… ? Sont-elles trop nombreuses et la variable concernée doit-elle être supprimée de l’étude ? Il s’agit également à cette étape de vérifier la consistance des variables, s’assurer de leur provenance, et de leur stabilité. En effet, un modèle n’est utilisable au fil du temps que si ses variables restent disponibles et calibrées de la même manière.

Lorsque la base de données est nettoyée, il faut alors créer et/ou sélectionner les variables à utiliser dans l’étude ; en machine learning, cela s’appelle le « feature engineering ». Il peut s’agir par exemple de calculer, à partir de l’historique des achats d’un client, son panier moyen sur les trois derniers mois, six derniers mois, la catégorie de produits qu’il achète le plus, sa fréquence d’achat… Ce sont ces nouveaux indicateurs qui seront susceptibles d’intégrer le modèle.

S’ensuit une étape de sélection de variables. Lesquelles semblent pertinentes ? Sont-elles corrélées avec notre objectif (par exemple savoir si la personne va cliquer sur l’email) ? Sont-elles corrélées entre elles et est-ce un problème ? Doit-on les considérer comme quantitatives ou qualitatives ?

Il est primordial d’être à l’écoute des besoins du métier afin de choisir le modèle le plus adapté.

Est-il nécessaire de quantifier l’impact d’une variable à la fin ? Le pouvoir explicatif est-il important ? L’erreur est-elle la même partout (un faux positif a-t-il la même valeur qu’un faux négatif) ? Les réponses à ces questions permettent de sélectionner une méthode de machine learning, voire plusieurs, et de savoir s’il faut les combiner et comment.

Après avoir calibré et sélectionné le modèle, il faut le valider d’après son taux d’erreur notamment et vérifier que ses éventuelles hypothèses sont respectées.

Pour en savoir plus, contactez-nous
Nom
Prénom
Société
E-mail *
Téléphone
Votre message *

* Champs obligatoires

Le rôle capital du/de la data scientist est ensuite de restituer les principales informations pour communiquer les résultats aux différents interlocuteurs. Il s’agit de choisir le bon graphique, la bonne visualisation, pour communiquer le plus efficacement auprès du client. Faut-il faire un nuage de mots, un histogramme, un tableau ? Doit-il être dynamique ou statique ? Ce modèle sera-t-il amené à tourner sur de nouvelles données régulièrement ? C’est en fonction de tous ces paramètres que nous choisirons par exemple l’utilisation d’une plateforme dynamique plutôt que d’un rapport unique.

Finalement, le rôle d’un/une data scientist est d’accompagner ses clients, à travers la compréhension fine de leur besoin, dans la calibration et le choix d’un modèle complexe, afin de valoriser au mieux leurs données.