Quelle stratégie d’identification des facteurs influents sur un processus de production ?
L’objectif de l’identification des facteurs influents est multiple :
- Permettre de comprendre le processus et les facteurs qui font varier sa performance.
- Permettre de déterminer les paramètres à mettre sous contrôle pour ensuite optimiser les conditions opératoires en sélectionnant les plages de fonctionnement optimales.
Approche exhaustive vs. approche rationnelle
Ces deux approches se confrontent régulièrement dans les discussions relatives à l’identification de facteurs influents. À savoir s’il faut prendre un maximum de données en compte, voire toutes les prendre, ou passer au travers du filtre d’un « expert» pour limiter le périmètre de l’étude.
Les deux approches répondent à des priorités différentes :
- La première cherche à éviter tout biais dans l’étude. Cela permet ainsi d’éviter qu’un regard expert ne vienne censurer le champ de l’étude avec ses aprioris.
- La seconde cherche à améliorer la qualité de l’information utilisée pour l’étude afin de maximiser l’efficacité des algorithmes utilisés.
Les deux arguments se tiennent et ne doivent pas être opposés.
Un objectif : trouver une explication solide de la variabilité du processus
Pour trouver le bon équilibre, il faut revenir à l’objectif. On cherche à identifier des facteurs dont l’influence n’était pas nécessairement connue, mais qui est bien avérée et apporte une information pertinente sur le processus étudié.
Cependant, il y a certaines constantes inévitables dans le fonctionnement des modèles mathématiques et statistiques utilisés à cette fin. Plus le nombre de facteurs étudiés est important, plus on risque :
- de détecter des corrélations fortuites, pur fruit du hasard ;
- de réduire l’efficacité des modèles dans la sélection des variables.
C’est là ce que l’on entend par « robustesse ». Les algorithmes utilisés visent certes à dénicher des corrélations non évidentes, mais les résultats de l’étude doivent également, autant que possible, bien correspondre à une réalité. Et ce quel que soit le jeu de données étudié.
Ne pas passer à côté de paramètres pertinents mais jusqu’ici ignorés
Pour des raisons de qualité
Il est inutile de prendre en compte des données de piètre qualité (par exemple un capteur avec une forte dérive de calibration dans le temps, ou connu comme étant défaillant). Elles vont perturber la démarche plus que l’enrichir.
Cet aspect peut en revanche être maitrisé avec le temps en mettant en place une démarche de qualité de la donnée (suivi métrologique, mise en place de mesures avec des niveaux de précision et de bruit compatibles avec l’usage attendu de la donnée, etc.). Cela étend ainsi le périmètre de la démarche.
Pour des raisons d’interdépendance
Il n’est pas rare d’avoir des paramètres qui évoluent de manière coordonnée de par la nature même du processus observé. Dans ce cas, les corrélations naturelles des paramètres entre eux vont réduire la sensibilité des modèles utilisés. L’influence estimée a toutes les chances d’être diluée entre ces différents facteurs. Par exemple, sur des équipements comme des évaporateurs, un certain nombre de paramètres mesurés – températures, pressions, etc. – sont complètement interdépendants du fait des lois de la thermodynamique. Le contrôle de quelques-uns suffit à fixer la valeur des autres.
La connaissance du processus étudié, ainsi que des évaluations préliminaires de ces corrélations, permettent de déterminer des groupes de paramètres interdépendants, et d’y sélectionner ceux qui semblent les plus pertinents.
Pour des raisons d’actionnabilité
Tous les paramètres ne sont pas contrôlables. Il peut être possible, en fonction de ce que l’on souhaite faire, de sortir du périmètre de l’étude les paramètres qui ne sont pas actionnables et ne pourraient le devenir sans modification du processus ou investissement. Par exemple, on mesure une température sur un fluide, mais à ce jour on ne peut pas la contrôler car on ne dispose pas d’équipement – échangeur… – pour le faire.
Au contraire, il pourrait être logique de conserver la donnée dans le périmètre de l’étude s’il est envisagé de pouvoir la contrôler à terme. Si l’on souhaite travailler sur une mise sous contrôle plus immédiate, on peut se limiter aux paramètres déjà actionnables. Conserver l’ensemble des paramètres, quelle que soit leur actionnabilité, permet d’explorer tout le champ des possibles, et de prendre en compte certaines conditions environnementales. On peut donc ajuster le périmètre en fonction de l’objectif attendu.
Pour des raisons de sens métier
Statistiquement on considère qu’il faut un grand nombre d’observations par rapport au nombre de paramètres étudiés si l’on veut avoir des résultats pertinents. En particulier éviter la détection de corrélations fortuites ne correspondant à aucune réalité physique. Si l’on ne remplit pas cette condition, il faut rester très vigilant dans l’interprétation des résultats et valider les corrélations identifiées par la connaissance du métier et une approche de tests sur le terrain.
Notre approche
Nous utilisons la combinaison d’un algorithme de Machine Learning basé sur des ensembles d’arbres et d’une méthode combinatoire basée sur la théorie des jeux pour identifier les facteurs influents. L’objectif de cette approche est de fournir une méthode qui soit robuste, à l’état de l’art pour le traitement de ce type de données et la détermination de la participation de chaque variable à la variabilité d’un processus.
Un premier avantage de ces algorithmes est leur efficacité en termes de temps de calcul (hormis le temps de récupération des données) :
- Ils sont peu impactés par le nombre de paramètres étudiés (nombre de colonnes du jeu de données).
- Le temps de calcul évolue de manière relativement linéaire avec le nombre d’observations utilisées (nombre de lignes du jeu de données).
Un autre avantage est leur robustesse vis-à-vis d’un certain nombre de point évoqués ci-dessus :
- Nombre d’observations insuffisant ;
- Attribution effective de l’influence aux différents paramètres.
Quelle démarche ?
La démarche que nous recommandons, sachant que d’autres sont possibles :
- Consacrer du temps à regarder les données avec des outils de visualisation. Traiter les sujets de qualité, d’interdépendance, de sens. C’est un investissement qui permettra d’améliorer l’efficacité de la démarche.
- Commencer par étudier un périmètre restreint de paramètres. Se focaliser sur ceux avec une bonne qualité de données, sans interdépendance, ayant un sens métier et qui sont déjà actionnables. Il sera possible de valider le niveau de variabilité expliquée par ces paramètres, et ainsi orienter ses efforts :
- soit sur la mise sous contrôle de ces paramètres s’ils expliquent une part importante de la variabilité ;
- soit sur la poursuite de l’étude.
- Ensuite étendre le périmètre pour augmenter la part de variabilité expliquée. Cette extension peut se faire en ajoutant des données de moins bonne qualité, des paramètres potentiellement actionnables, tout en éliminant les interdépendances, et ce, jusqu’à l’exhaustivité.
Ce qu’il faut retenir :
- Garder un esprit ouvert, en laissant le champ d’exploration le plus large possible.
- Veiller à la qualité des données exploitées.
- Au maximum, travailler avec des paramètres porteurs de sens construits à partir des données disponibles.
- Avoir un esprit critique sur les résultats obtenus, aussi bien d’un point de vue statistique, mathématique, que métier.
Auteurs : Mathieu Cura, Christian Duperrier, Arthur Martel