Importation des données

Lorsque l’utilisateur clique sur le bouton "Démarrer" de l’onglet "Vue d’ensemble" , l’onglet "Import" s’affiche (fig 2).

Fig2 Import

Figure 2: Onglet Import

Bouton Importer un fichier TXT

Le bouton "Importer un fichier TXT" permet d’importer un jeu de données dans l’interface. Voici les règles à suivre pour que les données importées soient conformes :

  • les données doivent être échantillonnées à pas constant ;
  • les données doivent être stockées dans un fichier .txt (sauvegarder en tant que ’.txt’ dans votre feuille de calculs) ;
  • chaque colonne correspond à un paramètre et la première ligne indique le nom des paramètres ;
  • le séparateur décimal doit être le caractère ’.’ ;
  • les valeurs manquantes doivent être labellisées ’NA’ ;
  • les dates des observations doivent être renseignées dans une colonne intitulée ’Dates’ ;
  • ces dates doivent être au format ’AAAA-MM-JJ (format ISO 8601);
  • les heures des observations doivent être renseignées dans une colonne intitulée ’Hours’ ;
  • ces heures doivent être au format ’HH:MM:SS’ (format ISO 8601).

Lorsque les données sont importées, le nom du fichier correspondant est affiché à côté du bouton.

Le package contient également le jeu de données MarelCarnot1 qui peut être utilisé comme fichier d’exemple. Ce jeu de données est composé de 16 variables et 131 487 observations : 1 observation toutes les 20 minutes du 1erjanvier 2005 au 31 décembre 2009. Il provient de mesures de paramètres physico-chimiques et de concentrations de nutriments effectuées par la station MAREL-Carnot, installée dans la rade de Boulogne-sur-Mer et développée par l’IFREMER.

Toutes les illustrations affichées dans ce document sont réalisées à partir de ce jeu de données. Les obervations des années 2005 à 2008 ont constitué l’échantillon d’apprentissage et celles de l’année 2009 ont constitué l’échantillon de validation. Neuf variables ont été intégrées au modèle (voir le détail en annexe, tab 2) et la variable ECHL1 (fluorescence) a été utilisée pour valider le modèle3 et contrôler sa qualité.

Bouton Sélectionner le répertoire de sauvegarde

Le bouton "Sélectionner le répertoire de sauvegarde" permet à l’utilisateur de choisir un répertoire de sauvegarde. Une fois choisi, le chemin du répertoire de sauvegarde est affiché à côté du bouton.

Dans ce répertoire sont automatiquement créés 4 sous-répertoires :

  • "/DonneesBrutes/" ,
  • "/Classification/" ,
  • "/Modelisation/"
  • et "/Prediction/".

Dans chacun de ces 4 répertoires, 3 sous-répertoires sont créés : "/Figures/" , "/Tableaux/" et "/FichiersR/".

Bouton Résumé

Le bouton "Résumé" permet d’afficher, dans une nouvelle fenêtre, des statistiques descriptives sur les variables du jeu de données importé. Ces statistiques sont ensuite sauvegardées dans le fichier "./DonneesBrutes/Tableaux/summaryData.xls".

Figure 3: Exemple de sortie obtenue avec le bouton Résumé

La figure 3 est un exemple de sortie obtenue avec le bouton "Résumé". On peut notamment voir que la variable C_O21 a pour valeur minimale 5, pour 1erquartile 7.06, pour médiane 7.94, pour moyenne 8.256, pour 3ème quartile 9.38, pour valeur maximale 16.38 et a 4 501 valeurs manquantes.

Bouton Correction

Si les données importées ne sont pas tout à fait conformes au format demandé par l’interface, celles-ci peuvent être éditées en utilisant le bouton "Correction" (fig 4).

Il est notamment possible de renommer les variables, de transformer des variables caractères en variables numériques, ou de modifier quelques données une à une. Une fois édité, un clic sur le bouton "Quit" permet d’enregistrer le jeu de données corrigé dans le fichier "./DonneesBrutes/Tableaux/ nomfichier corrige date .txt)" , qui est automatiquement chargé par l’interface.

Si des corrections importantes sont nécessaires (dates dans un mauvais format, mauvaise labellisation des valeurs manquantes...), il est conseillé de les effectuer en dehors de l’interface, puis d’importer le fichier corrigé.

Figure 4: Exemple de fenêtre de correction des données

Boutons Prochaine étape

Une fois les données importées et le répertoire de sauvegarde sélectionné, 3 choix s’offrent à l’utilisateur :

  • Pour une première utilisation de l’interface ou pour réaliser une nouvelle classification pour détecter des états dans les données importées, il faut cliquer sur le bouton "Classification".
  • Si une classification des états sur le jeu de données importé a été réalisée précédemment, et que l’utilisateur souhaite maintenant estimer les paramètres du modèle MMC-NS associé, alors le bouton "Modélisation de séries temporelles" doit être actionné.
  • Si un modèle MMC-NS a déjà été estimé sur des données de même structure que celles importées et que l’utilisateur souhaite prédire les états de ces dernières, alors il doit cliquer sur le bouton "Prédiction".

  1. http://www.seanoe.org/data/00286/39754/: ce jeu de données a été nettoyé (alignement temporel, correction des valeurs aberrantes, remplacement de certaines valeurs manquantes...). 

  2. MAREL=Mesures Automatisées en Réseau pour l’Environnement Littoral 

  3. La fluorescence est en effet un paramètre qui permet de juger de la qualité du milieu considéré.