the Next Step ?

cluster

L’Interaction Homme Machine a pour objectif d’étudier la manière dont les humains interagissent avec les ordinateurs afin d’ensuite concevoir des outils plus ergonomiques. Pour cela, des séances de brainstorming réunissant utilisateurs (dans notre cas les statisticiens) et informaticiens sont organisées. Dans un premier temps, l’objectif est de définir les tâches qui sont particulièrement ardues ou pénibles à réaliser. Ensuite, des solutions sont collectivement imaginées. Enfin, un prototype vidéo, illustration par l’exemple du problème et de sa solution, est élaboré.

 

Dans ce qui suit, nous présentons quelques problèmes sur lesquels nous avons travaillé. Point important, une grande partie des solutions proposées fait appel à des outils graphiques. Mais en vertu du principe de reproductabilitée des analyses statistiques, toutes sont conçues pour générer le code source correspondant aux manipulations graphiques effectuées.

Export de résultats

Le premier axe de travail sur lequel nous nous sommes penchés concerne l’export des résultats. Dans leur grande majorité, les logiciels statistiques se focalisent sur la production de données statistiques et ne s’intéressent que peu à l’export des résultats vers un autre logiciel (LaTeX, html, World…). L’utilisateur est donc souvent contraint d’utiliser des méthodes fastidieuses (copier-coller cases à cases) voir des méthodes à risque car les données peuvent s’altérer pendant le transfert (recopie manuelle des résultats).

Or, des solutions alternatives sont possibles. L’une d’elle est d’intégrer au logiciel une interface d’export des résultats. Simple, elle permet une rapide mise en forme des données, puis un export dans un format prédéfini. Cerise sur le gâteau, de la même manière qu’il est possible de spécifier à Bibtex ou Endnote le format bibliographique utilisé par un journal, il est possible de préciser la mise en forme désirée. Par exemple, les tableaux dans « Statistics in Medicine » sont délimités par des traits horizontaux gras et ne comptent pas de barres verticales. Cette spécification est connue de l’interface d’export.

Utilisation de la couleur pour le data management

Le data management est également un grand laissé pour compte des logiciels statistiques. Le nettoyage d’une base de données, le repérage et la suppression des valeurs aberrantes, la modification des types sont des opérations difficiles. Pire, il peut arriver qu’une variable donne l’apparence d’un type alors qu’elle est en fait d’un autre type. Classiquement, une variable théoriquement numérique peut être considérée comme nominale suite à la présence d’une unique valeur nominale dans la colonne (comme un « O » au lieu d’un « 0 »).

Une solution pour aider au data management est de permettre l’édition des bases de données. Dans une première étape, il devient possible d’obtenir visuellement des informations sur les variables (coloration des valeurs aberrantes, surlignage des lignes identiques, coloration des types). Puis, via une interface, certaines modifications de la base sont possibles (modifier un type, supprimer une ligne en double,…). L’impact de la modification est immédiatement visible, toujours grâce à la coloration des données.

Graphes interactifs

La majorité des logiciels statistiques actuels permettent de produire des graphes figés (non interactifs). Si un graphe ne convient pas, comme par exemple une boite à moustache « écrasée » par la présence d’une valeur aberrante, il faut supprimer le graphe, modifier les données puis produire un nouveau graphe.

Il est intéressant de concevoir des graphes interactifs offrant la possibilité de sélectionner ou dessélectionner des données de manière interactive. Au final, des données permettent de produire un graphe, en retour celui-ci permet de sélectionner une partie de la population. Un nouveau graphe concernant uniquement à la sous-population peut être produit.

Autres projets

Les trois illustrations précédentes ne sont que des exemples parmi de nombreux possibles. On trouve également :

  • Aide contextuelle : au fur et à mesure que l’on écrit du code, des fenêtres d’informations apparaissent. Exemple présenté par Bruno Falissard ici.
  • Data management à la souris : permet un data management simplifié, avec souris, tout en générant le code. Exemple présenté par Caroline Barry ici.
  • Reshape graphique : la transformation de mesures répétées du format « long » au format « wide » (ou inversement) est souvent compliqué. Une interface graphique peut simplifier les choses. Exemple présenté par Jérome Collet ici
  • Complétion automatique : la saisie d’un mot propose différentes suites possibles pour le mot (fonction qui commencent par ce mot), puis ouvre une fenêtre affichant les options possibles. Exemple présenté par Alexandra Rouquette ici.
  • Construction automatique de tableau : pour définir un tableau, on place en ordonnée des fonctions statistiques, en abscisse des noms de variables. Le tableau se rempli tout seul automatiquement. Exemple présenté par Stéphane Legleye ici.
  • Graphe interactif : interface qui permet de modifier de manière interactive les graphiques. Exemple présenté par Stéphane Legleye ici.
  • Fusion graphique de bases de données : lorsque l’on travaille sur des données réparties dans plusieurs bases, la fusion de base de données peut être compliquée. Une interface graphique simplifie les choses. Exemple présenté par Benoit Lepage ici.
  • Mémorisation d’analyses : Après avoir fait de nombreuses analyses, on peut avoir envie de revenir sur l’une plutôt qu’une autre. Exemple présenté par Anissa ici.
  • Arbre de choix d’un test statistique : en saisissant les informations sur les variables, un arbre de décision nous aide à choisir le bon test. Exemple présenté par Christophe Genolini ici.

A suivre : INSERM UMR 1027 et UI 699