Sélection des variables

L’onglet "Sélection des variables" permet de sélectionner les variables du modèle et la période d’apprentissage (fig 5).

Figure 5: Onglet Sélection des variables

Cadre Sélection des variables

Dans le cadre "Sélection des variables" , la liste de gauche contient l’ensemble des variables du jeu de données importé, alors que la liste de droite contient l’ensemble des variables du modèle à estimer. Pour ajouter une variable au modèle, il faut cliquer sur son nom dans la liste de gauche puis cliquer sur le bouton "=>".

La variable apparaît alors dans la liste de droite. Pour retirer une variable du modèle, il faut sur cliquer son nom dans la liste de droite puis sur le bouton "<=". Il est possible d’intégrer rapidement l’ensemble des variables au modèle en cliquant sur "- Toutes les variables -" dans la liste de gauche puis en cliquant sur le bouton "=>".

Le bouton "tout retirer" sert quant à lui à retirer l’ensemble des variables qui ont été incluses.

Analyse exploratoire

Les boutons "Graphiques" , "Boxplots" , "Corrélations" et "ACP" permettent d’explorer les données afin d’aider l’utilisateur à sélectionner les variables de son modèle.

Le bouton "Graphiques" permet de visualiser l’évolution temporelle des variables du jeu de données (fig 6). Une variable constante au cours du temps n’apportera pas beaucoup d’information au modèle. Les graphiques obtenus sont sauvegardés dans le répertoire "./DonneesBrutes/Figures/".

Figure 6: Evolution temporelle de la variable E__TA (température de l’eau)
Le bouton "Boxplots" permet d’afficher les boxplots^12 des variables du jeu de données (fig 7). Les graphiques obtenus sont sauvegardés dans le répertoire "./DonneesBrutes/Figures/".

Figure 7: Boxplot de la variable ETCO1 (température de l’air)
Le bouton "Corrélations" permet d’afficher la matrice des coefficients de corrélation des variables du jeu de données (fig 8). Il est déconseillé d’introduire des variables fortement corrélées5 entre elles dans un même modèle. La matrice obtenue est sauvegardée dans le fichier "./DonneesBrutes/Tableaux/correlations.jpeg"_.

Figure 8: Matrice des corrélations des variables du jeu de données d’exemple

Le bouton "ACP" permet de visualiser les cercles des corrélations (fig 9), issus de l’Analyse en Composantes Principales6 réalisée sur les variables du modèle, dans les différents plans principaux. Les variables non incluses sont utilisées comme variables supplémentaires (elles sont représentées (en bleu) sur les cercles, mais elles n’ont aucun impact dans les calculs qui ont permis d’obtenir les axes). Les résultats de l’ACP sont sauvegardés dans le dossier "./DonneesBrutes/ACP_ date ".

Figure 9: Cercle des corrélations de l’ACP effectuée sur le jeu de données d’exemple

Cadre Sélection de la période d’apprentissage

Par défaut, le programme considère toute la période sur laquelle on dispose de données pour détecter des états. L’utilisateur peut choisir de n’utiliser qu’une partie des données pour réaliser la classification en modifiant les champs "De" (date de départ de l’échantillon d’apprentissage) et "à" (date de fin de l’échantillon d’apprentissage).

Cela permet de découper les données en deux échantillons : un échantillon d’apprentissage7 (composé des observations disponibles les plus anciennes) et un echantillon de validation du modèle (observations disponibles les plus récentes).

Comme annoncé précédemment, nous utiliserons dans ce document la variable fluorescence pour valider le modèle. La validation des résultats dans le cadre d’états/classes non observables est cependant souvent difficile.

Une fois les variables et la période d’apprentissage choisies, un clic sur le bouton "Lancer" permet de passer à l’onglet "Classification".



  1. http://www.seanoe.org/data/00286/39754/: ce jeu de données a été nettoyé (alignement temporel, correction des valeurs aberrantes, remplacement de certaines valeurs manquantes...). 

  2. MAREL=Mesures Automatisées en Réseau pour l’Environnement Littoral 

  3. La fluorescence est en effet un paramètre qui permet de juger de la qualité du milieu considéré. 

  4. Un boxplot est un diagramme sur lequel sont tracés les principales caractéristiques de dispersion d’un échantillon univarié : 1er et 3ème quartiles (Q1 et Q3), médiane, moustaches (Wmin=max{ valeur_min ; Q1-1.5(Q3-Q1)} et Wmax=min{ valeur_max ; Q3+1.5(Q3-Q1)}) et valeurs extrèmes (points à l’exterieur des moustaches). 

  5. Deux variables sont dites corrélées lorsque leur coefficient de corrélation est proche de 1 ou -1, et non corrélées lorsque celui-ci est proche de 0. 

  6. L’ACP est une méthode qui a pour but de projeter un nuage de points situé dans un espace de grande dimension, dans un espace de dimension plus petite en le déformant le moins possible [6]. 

  7. Il est conseillé d’utiliser un échatillon d’apprentissage composé d’au moins 70% des données disponibles.