Les cotateurs seront-ils remplacés par des machines ?

Par Redacteur CFP dans Actualités scientifiques

Utiliser la même échelle d’évaluation chez tous les sujets permet de les comparer. Ce principe élémentaire est remis en cause au moment où apparaissent en clinique de nouveaux modes de mesure. A l’heure où les RDOC (Research Domain Criteria) associent des dimensions observables à des quantifications neurobiologiques, avec le projet d’étudier par exemple tous les aspects  de la mémoire de travail,  du gène  à la performance, le  PROMIS (Patient Reported Outcomes Measurement Information System) est un système informatisé d’instruments d’évaluation proposés à tous les instituts du NIH (National Institute of Health) américain.

Une refonte des échelles d’évaluation

  La méthodologie PROMIS  a  permis au groupe de David  Kupfer à  Pittsburgh de travailler sur une banque de 1404 items décrivant la « détresse émotionnelle » à partir d’un pool de  305 échelles identifiées dans la littérature,  avec l’objectif de simplifier l’évaluation clinique.  La  hiérarchisation et la réécriture  de ces items à la suite de discussions entre chercheurs et d’analyses en composantes principales,  suivie d’une validation  auprès de groupes de patients, permettent de  ne conserver que 28 items évaluant la dépression, 29 l’anxiété et 29 la colère.  Les courbes  mesurant la sévérité de la dépression  dans la population étudiée   montrent  que les  28 items (et même 8 items dans une version abrégée) sont aussi  valides (sensibilité, spécificité) que les échelles traditionnelles.

Des questionnaires personnalisés

 Outre cette refonte des échelles classiques, les méthodologistes  de ce qu’on appelle l’IRT (Item Response Theory) considèrent que les mêmes items ne doivent pas s’appliquer à des sujets exprimant  différemment une même pathologie. « Dans une épreuve de saut en hauteur, tout le monde ne commence pas la compétition à la même hauteur, c’est le meilleur saut qui compte» dit R.D. Gibbons. Les items contribuant peu au diagnostic  ne sont  pas retenus par le CAT-MH ( Computerized Adaptive Test-Mental Health),  test « adaptatif » en ligne qui choisit pas à pas,  à partir d’une banque d’items,   ceux qui sont  optimaux pour chaque patient en fonction d’un tableau qui se construit progressivement. L’algorithme fonctionne comme un psychiatre expérimenté qui parviendrait généralement au diagnostic en quelques questions, mais devrait se faire une opinion à l’aide de questions supplémentaires dans les cas les plus difficiles.  Ainsi à partir d’une banque de plusieurs centaines d’items, l’algorithme peut mesurer la sévérité de la dépression, de l’anxiété ou du trouble bipolaire en 2 minutes, avec en moyenne 12 items pour chaque pathologie. La corrélation des scores aux items de ces  échelles simplifiées est proche de 0.95 avec le score de l’ensemble des items  de la banque correspondant à la pathologie étudiée. Cette corrélation est satisfaisante mais peut être encore améliorée si l’on décide de poser davantage de questions, réduisant le degré d’incertitude. Utiles pour suivre l’évolution clinique au cours d’un traitement, l’évaluation adaptative donne également la possibilité de dépister rapidement un état dépressif.  La validité  (sensibilité,  spécificité)  de ce dépistage est supérieure à celle d’un questionnaire comme le PHQ-9 : sur 100 patients authentiquement déprimés dans la population générale, le système CAT  n’en manquera que 5, alors que le PHQ-9 (Patient Health Questionnaire) en manquera 30. L’identification  du risque suicidaire est aussi très simple, à l’aide de 1 à 4 items dont le score peut déclencher un processus automatique d’alerte. Les questions posées portent sur les 2 semaines précédentes. On s’explique ainsi que pour l’anxiété généralisée, dont les symptômes doivent durer au moins 6 mois pour parvenir au diagnostic, la sensibilité du CAT-Anxiety ne soit que de 0.65. Sa spécificité (faible nombre de faux positifs parmi les patients diagnostiqués) reste élevée (0.93).

L’automatisation de l’évaluation

Les tests adaptatifs en ligne sont utilisés dans l’évaluation des connaissances. La multidimensionnalité des syndromes psychiatriques a longtemps représenté un obstacle à leur usage dans notre spécialité. L’équipe de Pittsburgh (D. Kupfer, E. Frank), dont on connaît les résultats  dans le domaine des troubles bipolaires, s’est associée aux méthodologistes de Chicago (R. Gibbons) pour  développer avec rigueur ces instruments destinés à la mesure des troubles de l’humeur et de l’anxiété. Gageons que les protocoles à venir auront recours à cette méthodologie qui représente un gain de temps et se substitue au raisonnement du clinicien.

André Galinowski Paris

Références :
PA Pilkonis et al : Item banks for measuring emotional distress from the Patient-Reported Outcomes Measurement Information System (PROMIS®): depression, anxiety, and anger. Assessment. 2011, 18(3):263-83.
RD Gibbons et al: Development of a computerized adaptive test for depression. Arch Gen Psychiatry. 2012, 69(11):1104-12.