Les cotateurs seront-ils remplacés par des machines ?

Utiliser la même échelle d’évaluation chez tous les sujets permet de les comparer. Ce principe élémentaire est remis en cause au moment où apparaissent en clinique de nouveaux modes de mesure. A l’heure où les RDOC (Research Domain Criteria) associent des dimensions observables à des quantifications neurobiologiques, avec le projet d’étudier par exemple tous les aspects de la mémoire de travail, du gène à la performance, le PROMIS (Patient Reported Outcomes Measurement Information System) est un système informatisé d’instruments d’évaluation proposés à tous les instituts du NIH (National Institute of Health) américain.

Une refonte des échelles d’évaluation

La méthodologie PROMIS a permis au groupe de David Kupfer à Pittsburgh de travailler sur une banque de 1404 items décrivant la « détresse émotionnelle » à partir d’un pool de 305 échelles identifiées dans la littérature, avec l’objectif de simplifier l’évaluation clinique. La hiérarchisation et la réécriture de ces items à la suite de discussions entre chercheurs et d’analyses en composantes principales, suivie d’une validation auprès de groupes de patients, permettent de ne conserver que 28 items évaluant la dépression, 29 l’anxiété et 29 la colère. Les courbes mesurant la sévérité de la dépression dans la population étudiée montrent que les 28 items (et même 8 items dans une version abrégée) sont aussi valides (sensibilité, spécificité) que les échelles traditionnelles.

Des questionnaires personnalisés

Outre cette refonte des échelles classiques, les méthodologistes de ce qu’on appelle l’IRT (Item Response Theory) considèrent que les mêmes items ne doivent pas s’appliquer à des sujets exprimant différemment une même pathologie. « Dans une épreuve de saut en hauteur, tout le monde ne commence pas la compétition à la même hauteur, c’est le meilleur saut qui compte» dit R.D. Gibbons. Les items contribuant peu au diagnostic ne sont pas retenus par le CAT-MH ( Computerized Adaptive Test-Mental Health), test « adaptatif » en ligne qui choisit pas à pas, à partir d’une banque d’items, ceux qui sont optimaux pour chaque patient en fonction d’un tableau qui se construit progressivement. L’algorithme fonctionne comme un psychiatre expérimenté qui parviendrait généralement au diagnostic en quelques questions, mais devrait se faire une opinion à l’aide de questions supplémentaires dans les cas les plus difficiles. Ainsi à partir d’une banque de plusieurs centaines d’items, l’algorithme peut mesurer la sévérité de la dépression, de l’anxiété ou du trouble bipolaire en 2 minutes, avec en moyenne 12 items pour chaque pathologie. La corrélation des scores aux items de ces échelles simplifiées est proche de 0.95 avec le score de l’ensemble des items de la banque correspondant à la pathologie étudiée. Cette corrélation est satisfaisante mais peut être encore améliorée si l’on décide de poser davantage de questions, réduisant le degré d’incertitude. Utiles pour suivre l’évolution clinique au cours d’un traitement, l’évaluation adaptative donne également la possibilité de dépister rapidement un état dépressif. La validité (sensibilité, spécificité) de ce dépistage est supérieure à celle d’un questionnaire comme le PHQ-9 : sur 100 patients authentiquement déprimés dans la population générale, le système CAT n’en manquera que 5, alors que le PHQ-9 (Patient Health Questionnaire) en manquera 30. L’identification du risque suicidaire est aussi très simple, à l’aide de 1 à 4 items dont le score peut déclencher un processus automatique d’alerte. Les questions posées portent sur les 2 semaines précédentes. On s’explique ainsi que pour l’anxiété généralisée, dont les symptômes doivent durer au moins 6 mois pour parvenir au diagnostic, la sensibilité du CAT-Anxiety ne soit que de 0.65. Sa spécificité (faible nombre de faux positifs parmi les patients diagnostiqués) reste élevée (0.93).

L’automatisation de l’évaluation

Les tests adaptatifs en ligne sont utilisés dans l’évaluation des connaissances. La multidimensionnalité des syndromes psychiatriques a longtemps représenté un obstacle à leur usage dans notre spécialité. L’équipe de Pittsburgh (D. Kupfer, E. Frank), dont on connaît les résultats dans le domaine des troubles bipolaires, s’est associée aux méthodologistes de Chicago (R. Gibbons) pour développer avec rigueur ces instruments destinés à la mesure des troubles de l’humeur et de l’anxiété. Gageons que les protocoles à venir auront recours à cette méthodologie qui représente un gain de temps et se substitue au raisonnement du clinicien.

Références :
PA Pilkonis et al : Item banks for measuring emotional distress from the Patient-Reported Outcomes Measurement Information System (PROMIS®): depression, anxiety, and anger. Assessment. 2011, 18(3):263-83.
RD Gibbons et al: Development of a computerized adaptive test for depression. Arch Gen Psychiatry. 2012, 69(11):1104-12.

Une refonte des échelles d’évaluation

Des questionnaires personnalisés

L’automatisation de l’évaluation

Partenariats du Congrès Français de Psychiatrie