Significativité statistique

Message par **Fish** » dim. 25 févr. 2018 17:39

Je rebondis sur un argument que j’ai lu plusieurs fois ici et là :

theudericus a écrit :le modèle prévoit 2.1% avec un QI inférieur ou égal à 69 alors qu'ils en relèvent 3.1% sur l'étalonnage français du test, que le modèle prévoit 2.5% pour 130 et plus et que 1.4% sont observés.

Fish a écrit : "La corrélation entre les phénomènes A et B est faible mais néanmoins significative."
Si votre première réaction est "Faudrait savoir! c'est faible ou c'est significatif ?", faut réviser un peu les stats.

Alors c’est parti, révisons un peu les stats.

Dans la langue commune, quelque chose de significatif a une amplitude importante. On dit d’un référendum qu’il y a un écart significatif si on a un ratio 60/40%. Mais on ne dira pas cela d'un ratio 51/49%. En statistique, le ratio 51/49% peut être considéré comme significatif si on est à peu près sûr que cet écart mesuré sur un échantillon est bel et bien représentatif de toute la population, et pas simplement issu du bruit aléatoire inhérent à toute étude statistique. Est significatif ce qui émerge du bruit de fond, et qui a donc un sens.

On lance une pièce de monnaie 2 fois. Avec une pièce non faussée, on a 1 chance sur 4 d'obtenir deux fois pile. C’est tout à fait plausible. Une pièce totalement faussée donnerait également deux fois pile. Mais avec aussi peu de lancés, on est incapable d’affirmer que la pièce est faussée. On ne peut rien conclure. Sur deux lancés, l’écart entre le résultat obtenu (100 % de pile) et le résultat attendu (50 %) n’est pas significatif.

On lance une pièce 10 fois, et on obtient 10 pile. C'est très peu probable avec une pièce non faussée: 1 sur 1024. On pourra affirmer, en ayant 1 chance sur 1024 de se tromper, que la pièce est faussée. Sur 10 lancés, l’écart entre le résultat obtenu (100 %) et attendu (50%) est significatif.

Pourtant, dans les deux cas on a obtenu 100 % de pile alors qu’on attendait 50 %.

On lance une pièce 10 fois, on obtient 6 pile et 4 face. On sent intuitivement que ça peut arriver, que l’aléa peut justifier à lui seul l’écart entre le 6/4 obtenu et le 5/5 attendu. L’écart n’est pas significatif.

On lance une pièce 1000 fois, on obtient 600 piles et 400 face. Sur un nombre aussi élevé de lancé, on s’attend à ce que l’aléa soit déjà largement moyenné et à obtenir une valeur très proche de 500/500. Peut-être 506/494, mais pas 600/400. L’écart est significatif.

Pourtant, dans les deux cas on a 60 % de pile et 40 % de face.

Pour un même taux de pile, on peut conclure que la pièce est faussée ou ne pas conclure, suivant la taille de l’échantillon.
Pour une taille d’échantillon donnée, on peut conclure que la pièce est faussée ou ne pas conclure, suivant que l’écart par rapport au résultat attendu est important ou pas.
Une pièce franchement faussée sera détectée sur quelques lancés seulement. Une pièce faiblement faussée nécessitera un nombre de lancé bien plus grand.

La significativité dépend donc de trois paramètres :
- l’écart entre les résultats obtenu et attendu. Ça rejoint le sens commun où un écart est significatif s’il a une grande ampleur
- le nombre d’essais que l’on a mené (la taille de l’échantillon).
- le seuil de risque de se tromper en dessous duquel on accepte de prendre une décision. Typiquement on utilise 5 %, mais c’est discutable.

Ce seuil est aussi primordial. La probabilité d’obtenir 5 pile de suite est de 1 sur 32, soit 3 %. Si on place le seuil à 5 %, on conclura que la pièce est faussée avec un risque de se tromper de 3 %. Si on place le seuil de décision à 1 %, on refusera de conclure. Plus le seuil est bas, moins on a de chance de considérer à tort qu’une pièce est faussée, mais plus on a de chance de refuser de conclure alors que la pièce est réellement faussée. C’est un compromis.

Pour revenir à nos histoires de QI, je ne sais pas vous dire si l'écart entre le nombre attendu et obtenu de surdoués dans l’échantillon est significatif ou pas. Mais avant de chercher la cause d’un tel écart, il faut vérifier qu’il est significatif. S'il peut résulter de l’aléa, alors chercher les causes dans le monde réel revient à chercher pourquoi une pièce qui a donné 6 pile sur 10 lancés est faussée… Peut-être qu’elle ne l’est pas, tout simplement !

La significativité est utilisée à tour de bras en statistiques. On veut savoir si tel médicament à un effet réel ? Il faut vérifier que l'écart constaté entre un groupe réellement traité et un groupe de contrôle recevant un placébo est plus grand que ce que pourrait donner l'aléa. Même chose si on cherche à améliorer une chaîne de montage, si on expérimente une nouvelle pédagogie à l'école, etc. C'est aussi cette significativité qui autorise à grouper les subtests de la WAIS: on peut affirmer que le facteur G n'est pas unique et exclusif parce que la meilleure corrélation entre certains subtests est significative et ne résulte pas seulement de l'aléa.

Message par **Yannouk** » dim. 25 févr. 2018 19:05

"C'est aussi cette significativité qui autorise à grouper les subtests de la WAIS: on peut affirmer que le facteur G n'est pas unique et exclusif parce que la meilleure corrélation entre certains subtests est significative et ne résulte pas seulement de l'aléa."

Bonjour Fish!
Merci pour le cours de statistiques

Je t'ai bien suivi jusqu'à cette phrase, je voudrais bien que tu expliques/explicites ton point de vue, s'il-te-plaît!

Message par **Pataboul** » dim. 25 févr. 2018 19:20

Pour compléter, de façon simple et ludique, une vidéo de la chaîne "La statistique expliquée à mon chat" (géniale) sur la P-valeur qui est, si je ne me trompe pas, justement l'indice de "significativité" utilisé dans la recherche scientifique.
[BBvideo=560,315]http://www.youtube.com/watch?v=xVIt51ybvu0[/BBvideo]

Message par **Fish** » dim. 25 févr. 2018 20:06

Pour Yannouk:
Dès la création des tests de QI, Binet a eu l'intuition que mesurer l'intelligence était compliqué et peu précis. Pour avoir un chiffre valide, on mesure cette intelligence de plusieurs façons et on moyenne. Dès le départ il y avait donc plusieurs subtests, mais pour Binet ils mesuraient tous la même chose: une intelligence unique. Les différences de scores entre subtests n'étaient que des erreurs de mesure.

Pour qu'on puisse accepter cela, il faut en gros que l'erreur de mesure soit un bruit aléatoire gaussien. Derrière ce terme barbare se cache l'idée que l'erreur de mesure est le résultat d'un grand nombre de facteurs de petite amplitude qu'on ne maîtrise pas, mais dont aucun n'est plus important que les autres, et qui sont indépendants les uns des autres.

Pour faire une analogie avec le monde audio, le bruit aléatoire gaussien, c'est le souffle sur une chaine hi-fi. Si cette chaîne est défectueuse et qu'on entend une ronflette à 50Hz, on n'a plus un bruit blanc gaussien. On a le signal audio qui nous intéresse, on a toujours le souffle, mais on a en plus cette ronflette qui "domine" le souffle et qui est identifiable seule.

Sur les tests de QI, l'intelligence unique a pris du plomb dans l'aile quand on s'est rendu compte que certains subtests étaient plus corrélés entre eux qu'ils ne l'étaient avec l'ensemble des autres. Cela démontre que quelque chose lie ces subtests plus fortement que ce qui lie l'ensemble de tous les subtests (le facteur G). Pour démontrer cette corrélation accrue, on fait un test de significativité pour vérifier que ce n'est pas juste le résultat de l'aléa.

Vérifier la "qualité" du bruit de fond est une démarche active. Il faut anticiper les défauts potentiels de ce bruit de fond, les tester, et vérifier qu'on avait tort de s'inquiéter. Si le bruit de fond est bien un bruit aléatoire gaussien, alors on peut prétendre que nos différentes mesures concernent bien toutes la même chose et que c'est juste de l'imprécision. Si lors de cette investigation, on s’aperçoit que le bruit de fond n'est pas aléatoire gaussien, alors il y a des phénomènes qui agissent à l'échelle macroscopique qu'on n'a pas caractérisé, il faut continuer les recherches.

Pour Pataboul:
Oui, la P-value (ou P-valeur, mais on trouve généralement le terme anglais) est bien le résultat des tests de significativité. C'est la probabilité de se planter en prétendant que la pièce est faussée alors qu'en réalité elle ne le serait pas. C'est cette valeur qu'on compare avec le seuil de 5% (ou autre seuil qu'on choisit). L'hypothèse "la pièce n'est pas faussée" est appelée en statistique "hypothèse nulle", notée H0. La P-value est la probabilité de se tromper en déclarant que l'hypothèse nulle est fausse.

Une remarque : Quand on répète plein de fois les séries de tests, la probabilité qu'un événement improbable se produise sur l'une des séries augmente, on ne peut pas les considérer séparément. Si tu fais plein-plein-plein de séries de 10 lancés, ben c'est pas étonnant d'obtenir 10 fois pile sur l'une d'elle. C'est un biais de certaines études, qui ne publient que les séries de tests favorables parmi de nombreux échecs.

Pour faire suite à le vidéo: il y a pas mal de cas où faux positifs et faux négatifs ne sont pas du tout équivalents. Par exemple, pour tout ce qui est "dépistage" (faire passer des tests de base à une population très large sachant que la très grande majorité n'a pas de problèmes), les faux positifs ne provoqueront que quelques sueurs froides jusqu'aux tests complémentaires qui infirmeront les craintes de pathologies. Un faux négatif en revanche, c'est une pathologie non détectée.
En suivi de traitement par contre, lorsqu'il faut adapter à la hausse ou à la baisse un dosage en fonction du résultat du test, les faux positifs peuvent se révéler tout aussi grave que les faux négatifs.

Adulte Surdoué

Significativité statistique

Significativité statistique

Re: Significativité statistique

Re: Significativité statistique

Re: Significativité statistique