
Je me trouve confrontée à une interrogation à laquelle je n'ai pas de réponse immédiate dans le cadre professionnel et je me dis que ça peux être intéressant de la partager ici. La problématique peut en intéresser certains et cela peut m'apporter des idées, connaissances et points de vue que je ne rencontrerai peut-être pas autrement.
Actuellement, mon travail (en plus de céphalloraptor et redresseuse de tort) c'est de créer un test psychométrique. Oui, un peu comme les échelles de Weschler, sauf que nous ne nous intéressons pas à l'efficience intellectuelle spécifiquement mais plutôt aux compétences cognitives et langagières de manière plus générale car nous créons un test de dépistage des troubles des apprentissages.
Nous avons donc créé nos épreuves, des dimensions à explorer, des types de scores, de mesures, etc (tous cela est passionnant et je pourrai y revenir dans un fil dédié si cela intéresse certains : comment créer un test psychométrique de A à Z), procédé à l'étalonnage et nous avons toutes nos données. Maintenant il faut les mettre en forme pour créer des normes et sélectionner nos items/épreuves les plus pertinents pour la version finale.
Seulement, les choix que nous allons faire maintenant vont conditionner la nature du test, sa sensibilité et sa spécificité. Et je me trouve devant des dilemmes assez difficile à résoudre. Voilà la situation.
Nous avons un échantillonnage tout venant (nous avons recruté nos enfants dans des écoles de plusieurs villes de France, avec des groupes par classe de la moyenne section maternelle jusqu'à la 5ème). Nous avons 120 enfants par classe environ.
Sont exclus :
les redoublants et ceux qui ont sauté une classe (il y a des épreuves développementales et des épreuves scolaires, un décalage entre les deux biaise l'un et l'autre)
ceux dont les parents ont refusé que leur enfant participe.
Je rappelle que notre test est un test de dépistage. Il a pour objectif de permettre d'orienter vers un bilan plus approfondi quand cela est nécessaire. Le but est d'obtenir des critères de sévérité qui permette de confirmer ou d'infirmer l'hypothèse d'un trouble spécifique. Le seuil de sévérité est de -2 écart-types par rapport à la moyenne. Le test sera utilisé par des médecins (généralistes ou pédiatre) qui ne seront pas experts et doit donc donner des résultats simples à interpréter.
Nous avons deux mesures, les scores bruts de réussite et les temps de réalisation par item et par épreuve.
Nous voulons obtenir des normes de référence mais comme dans toute distribution, nous avons des outliers, des données extrêmes, qui décalent significativement la moyenne dans un sens ou dans l'autre et augmentent la taille des écarts-types. Nous avons fait le choix de garder dans la procédure tous les enfants, quel que soit leur niveau intellectuel et leurs éventuelles pathologies. Nous avons donc des enfants porteurs de troubles des apprentissages, de troubles de l'attention, HPI, defficients, etc. et certains ont des scores vraiment extrêmes, plus souvent vers le bas que vers le haut.
Notre dilemme est le suivant :
Si on garde les données extrêmes et que l'on crée nos normes à partir de la distribution telle quelle, on prend le risque d'avoir des normes décalées vers la gauche, une moyenne de référence sous-estimée et donc de laisser passer des enfants potentiellement pathologiques qui aurait mérités un examen plus approfondi. Il est aussi possible d'avoir des données extrêmes aberrantes, parce que le sujet avait la grippe ce jour là ou a répondu n'importe quoi. C'est la raison pour laquelle notre première intention était de supprimer tous les outliers dont les scores étaient inférieur à -3 écarts-types.
Si on modifie la distribution pour la rendre moins étendue et que l'on crée ainsi notre norme de référence, ont risque de rendre le test trop sensible et d'envoyer en bilan des enfants qui ne présentais pas les critères de sévérité attendus.
Dans les deux cas, la situation est grave. C'est pourquoi on ne peut pas juste se permettre d'avoir un avis sur la question. Il nous faut de vrais outils de décision statistique ou une méthode de référence, mais très franchement, les articles d'étalonnages que je lis sont tous obscurs et j'ai l'impression que sur ce point, tous le monde fait un peu à sa sauce sans qu'une règle fasse consensus et ça me dérange beaucoup.
Cette décision conditionne notre définition de la norme et du seuil pathologique et c'est trop lourd pour faire un choix hâtif.
Que pensez-vous de ce problème, s'il y en a parmi vous qui sont sensibilisés aux statistiques ?
D'autre part, nous allons aussi procéder à ce qu'on appelle la validation interne. C'est à dire mesurer la cohérence des épreuves entre elles (tous les items évaluent-ils bien une même dimension, par exemple, l'expression syntaxique ?) et le caractère discriminant de chaque item (en gros, est-ce qu'il est échoué par les plus faibles de l'ensemble de l'épreuve et réussi par les plus forts ? à quel point ? Un item systématiquement réussi ou systématiquement échoué n'est pas discriminant). A l'issu de ces analyses, nous supprimerons certains items. Cela va modifier la distribution et donc le nombre et la nature des outliers.
La validation interne et le nettoyage de la distribution étant des procédures inter-dépendantes, l'une modifiant l'autre, dans quel ordre est-il préférable de procéder ? Nettoyage des données puis validation interne, ou le contraire ?
Voilà les deux questions principales que je me pose aujourd'hui.
Si vous avez un avis sur la question n'hésitez pas, si vous avez des questions à propos du projet, je serai ravie de développer et si vous avez des CONNAISSANCES qui peuvent apporter un éclairage utile à ces problématiques je serai extrêmement reconnaissante.
Merci d'avoir lu mes errances méthodologico-statistico-métaphysiques !

Ce fil peut aussi faire l'objet de discussion plus vaste sur les statistiques appliqués à la psychométrie en générale, je serai heureuse d'y participer autant que possible !