Pourquoi

Introduction

Segmenter une série de manière non supervisée pour extraire ses événements importants, récurrents ou extrèmes, et ensuite prédire ces événements est un sujet d’intérêt dans plusieurs domaines. Cette volonté de caractériser la dynamique d’une série est liée :

  • à la volonté d’augmenter la compréhension des processus imbriqués dans cette série ;
  • mais aussi d’adapter les stratégies opérationnelles d’échantillonnage.

La succession des phases amenant à un événement récurrent ou extrême (un pic de concentration en métaux dans une rivière, ou un pic de concentration en phytoplancton dans des eaux douces ou marines, par exemple) peut être vue comme un chemin à travers des états environnementaux guidé à la fois par les observations et leur enchaînement (avec un niveau élevé de dépendance dans la succession des observations). Nous pouvons ainsi représenter la dynamique des événements via un graphe connecté dont un nœud représente un état environnemental et un arc de connexion la possibilité de passer d’un état à un autre. Souvent, les états environnementaux ne sont pas des événements directement observables contrairement aux paramètres physico-chimiques et biologiques.

L’utilisation d’un Modèle de Markov Caché (MMC) ergodique semble alors l’approche naturelle pour caractériser la dynamique des événements à partir des seules observations que sont les paramètres physico-chimiques et biologiques. La construction d’un modèle de Markov caché nécessite d’estimer l’ensemble de ses paramètres. Les paramètres du MMC à définir sont :

  • le nombre d’états ;
  • les lois de transition entre états et les lois d’émission de ces états ;
  • la caractérisation de ces états.

Habituellement, les paramètres du MMC sont appris avec une base de données labellisée ou fixée avec une information a priori. Ici, nous abordons la question de la prédiction d’événements extrêmes en utilisant un modèle de Markov caché hybride non supervisé construit à partir d’une base de données multidimensionnelle acquise à des fréquences élevées (vis-à-vis du processus étudié) ou à basse fréquence (mais sur une période suffisante).

L’idée conductrice a été de construire un système automatique d’estimation d’états environnementaux caractéristiques à partir des mesures acquises à haute résolution temporelle avec les aléas engendrés de données manquantes ou aberrantes. Aucune connaissance sur les états, leur caractérisation et leur séquencement n’est apportée dans la construction du système, à lui d’apprendre automatiquement ces informations à partir des mesures uniquement.

Le nombre d’états est obtenu par un critère lié à la géométrie des données selon une classification spectrale. La caractérisation des états est réalisée par quantification vectorielle1 des données connues, afin de s’affranchir d’hypothèses sur leur distribution. A partir d’un modèle MMC-NS construit, on peut alors prédire les états d’une autre série si celle-ci a une structuration identique (mêmes variables, mêmes types d’événements).

Cette interface a donc pour but de permettre aux utilisateurs standards, non-statisticiens, de modéliser un phénomène physique complexe par un graphe probabiliste d’états finis à partir d’observations temporelles multi-paramètres sans aucune connaissance a priori. Les illustrations présentées dans cette documentation répondent à une problématique de modélisation de la dynamique des efflorescences phytoplanctoniques en zone côtière de Boulogne-sur-Mer, sans connaissance de la succession saisonnière des taxons du phytoplancton et de la biomasse en général, à partir des données Marel-Carnot 2.


  1. cartographie de l’espace des attributs par des états représentatifs 

  2. http://www.seanoe.org/data/00286/39754/: ce jeu de données a été nettoyé (alignement temporel, correction des valeurs aberrantes, remplacement de certaines valeurs manquantes...)