Comment sont créés les tests de QI?
Vous êtes-vous déjà demandé comment les tests de QI sont créés ?
Dans la présente section, vous explorerez tout sur les procédures derrière la création du test de QI du Brain Assessment Center (et derrière tout autre test de QI en ligne ou hors ligne).
Après l’avoir lu, vous comprendrez les concepts de développement de tests les plus importants et vous saurez comment fonctionnent tous les tests de QI, y compris le test de QI du Brain Assessment Center (BAC) et d’autres tests fiables en ligne/numériques, les matrices progressives de Raven ou le Wechsler.
Bien sûr, cela pourrait nous prendre des années, des centaines de pages et une maîtrise en psychométrie pour expliquer toutes les subtilités de ces procédures, donc ce que nous allons fournir ici est un résumé très bref, général et facile.
Il existe deux théories psychométriques de la construction des tests, la théorie des tests classiques et la théorie des réponses aux items. Comme dit, ce que nous verrons ici est une simplification excessive, basée sur des faits issus pour la plupart de la théorie classique.
Plongeons-nous !
Quelles conditions les tests de QI doivent-ils remplir?
Quelles conditions les tests de QI doivent-ils remplir ?
Afin de créer un test de QI valide, il doit remplir deux conditions (nous simplifions par souci de simplicité, sans jeu de mots) :
1) L’échantillon de candidats doit être représentatif de la population générale (c’est-à-dire de la population globale/générale) et
2) Les ensembles d’items utilisés doivent avoir une validité et une fiabilité psychométriques.
(Encore une fois, toute la science derrière cela est plus complexe, il ne s’agit que d’une simplification décrivant les facteurs les plus importants et les plus remarquables).
Détaillons ces deux points.
Un échantillon représentatif est un sous-ensemble d’un groupe qui cherche à refléter avec précision les caractéristiques d’un groupe plus large.
Par exemple, une classe universitaire de 50 étudiants, 25 femmes et 25 hommes, pourrait générer un échantillon représentatif de 5 hommes et 5 femmes (il est représentatif car la variable cible de l’exemple, le sexe, est présente dans la même proportion que dans le plus grand échantillon).
Bien sûr, le sexe n’est pas la seule variable à prendre en compte lors de l’élaboration des tests de QI, l’échantillon doit également être représentatif d’au moins l’ethnie/le pays, l’âge et les performances/capacités intellectuelles, entre autres.
Ce dernier signifie que, puisque les tests de QI génèrent des scores en comparant vos performances à celles des autres, ces autres candidats doivent être composés de groupes de tous les niveaux intellectuels/QI existants.
Par exemple, si votre performance n’était comparée qu’à celle d’Einstein, votre score résultant serait très bas, en dessous de la moyenne, et cela serait mal mesuré !
Dans le passé, il était très difficile et coûteux de trouver des échantillons de candidats qui étaient également représentatifs de la population générale.
Cependant, de nos jours, grâce à Internet et aux nouvelles technologies numériques, il est possible d’obtenir des milliers de points de données d’entrée (c’est-à-dire des milliers de participants) en quelques jours.
Et grâce à la puissance de la classification algorithmique, il est possible d’évaluer et de séparer ces candidats en différents groupes représentatifs, selon des variables telles que le sexe, l’âge, la nationalité ou les performances.
Enfin, « items à validité psychométrique », en simplifiant à l’extrême, signifie que les items d’un test de QI sont valides et fiables, ou en d’autres termes, 1) qu’ils mesurent ce qu’ils sont censés mesurer et 2) qu’ils donnent toujours le même ( ou très similaires) résultats chaque fois qu’ils sont pris par la même personne.
Voyons ce que chacun de ces points signifie plus en détail :
-Validité : les tests mesurent ce qu’ils sont censés mesurer. En termes simples, cela signifie que ces éléments doivent évaluer le QI/la capacité intellectuelle, et non quelque chose de différent (par exemple, des connaissances simples ou la capacité de quelqu’un à danser).
Il existe plusieurs façons d’évaluer psychométriquement cette propriété. Par exemple, lors de la conception d’un test de QI, une façon d’analyser si les éléments sont valides est d’administrer à nos candidats un autre test de QI qui a déjà été validé. Si la corrélation entre les scores de ce test de QI et les nôtres est suffisamment forte (supérieure à 0,8, mais idéalement autour de 0,9), cela signifie que notre test est valide.
Il mesure la même chose qu’un test qui a déjà été validé, donc notre test est également valable.
-Fiabilité : c’est la propriété d’un outil de mesure de produire des mesures cohérentes à travers différentes observations d’un même échantillon. Par exemple, si la même personne reçoit un score très différent à chaque fois qu’elle passe un test de QI, le test n’aura aucune fiabilité. Si un thermomètre donne un nombre très différent à chaque fois que nous mesurons la température d’un objet (en supposant que la température de cet objet ne varie pas vraiment), cela signifie qu’il est cassé, il y a quelque chose qui ne va pas avec ce thermomètre.
Comment sont réalisés les tests de QI? Le processus de création d’un test de QI
Pour faire un test de QI, il faut d’abord réunir un panel d’experts pour développer les items du test, puis un autre groupe d’experts pour les réviser. Au fait, nous avons préparé un autre article expliquant ce que sont les tests de QI, au cas où vous ne sauriez pas exactement ce que sont ces outils ou comment ils sont utilisés.
Au début, un large échantillon d’articles est développé. Le nombre d’items doit être considérablement plus élevé que le nombre d’items que nous voudrons avoir dans notre version finale du test.
Une fois que tous les items du test ont été développés, nous avons besoin d’un échantillon de candidats.
Ce que nous ferons, c’est que nous leur donnerons le test, celui avec tous les éléments supplémentaires que nous avons créés.
Nous leur remettrons également un test déjà validé, afin de tester la validité des scores du test en cours de développement.
Nous avons maintenant les données suivantes :
- Le nombre de questions correctes que chaque personne a posées dans notre test
- Les scores de ces personnes au test déjà validé
N’oubliez pas que la manière dont les tests de QI produisent leurs scores/évaluent l’intelligence consiste à comparer vos performances (votre nombre de questions correctes) avec les performances de tous les autres candidats (le nombre moyen de questions correctes).
Maintenant que nous connaissons le nombre de questions correctes posées par chaque personne, nous pouvons calculer la moyenne des réponses correctes et l’écart type.
L’écart-type est une mesure de l’étalement des mesures autour de la moyenne, ou en d’autres termes, de la variabilité dans l’échantillon. Par exemple, si tout le monde avait 5 bonnes réponses dans un échantillon, on dirait qu’il n’y a pas de variance, mais dans un échantillon avec la même moyenne mais dans lequel certains ont 4 bonnes réponses, et d’autres en ont 6 (avec une moyenne=5), il y a est la variance.
Avec ces deux statistiques (la moyenne et l’écart-type) il est possible de calculer le pourcentage précis de personnes ayant répondu correctement N nombre d’items.
Avec ces statistiques, nous pouvons déjà créer notre échelle de QI et commencer à évaluer les gens. (Par exemple : si vous avez répondu correctement à 5 réponses, et que c’est le nombre de réponses correctes que seuls 2 % des candidats ont obtenu, cela signifie que vous faites partie des 2 % les plus performants, cela signifie que vous êtes plus intelligent que 98 % des personnes qui ont passé le test. le test).
Mais d’abord, revenons aux scores du test de QI déjà validé. Présentent-ils une corrélation significative et forte avec les résultats de notre test ? Si c’est le cas, félicitations, le test est valide, il mesure correctement le QI et nous pouvons passer aux étapes suivantes.
Bien sûr, le processus est en réalité beaucoup plus long, nous sautons de nombreuses étapes par souci de simplicité.
Alors maintenant, nous savons déjà que nos articles sont valides, mais… n’avons-nous pas dit que nous en laisserions tomber certains ?
Exactement. En gros, ce que nous allons faire maintenant est de calculer toutes les corrélations par paires entre les éléments. Cette statistique s’appelle « Cronbach alpha » et indique la cohérence interne d’un test ; la mesure dans laquelle les éléments sont corrélés les uns aux autres (et d’une manière générale, plus ils en font, mieux c’est).
Pour chaque élément, nous calculerons alors ladite statistique sans cet élément lui-même, c’est-à-dire en supprimant ledit élément du calcul.
De cette façon, nous pouvons voir comment cet indicateur statistique varierait en fonction des éléments exclus.
Par conséquent, si nous voyons qu’il y a certains éléments qui, lorsqu’ils sont supprimés, augmentent la cohérence interne du test, nous savons que l’ensemble du test serait plus fiable et valide sans eux ; nous savons maintenant quels éléments nous devons retirer du test.
Nous avons déjà la version finale (les éléments finaux) du test, et nous savons déjà qu’il est valide et fiable, nous pouvons fièrement conclure que notre test est terminé et qu’il a été un grand succès.
Bien sûr, il peut y avoir plusieurs types de tests de QI, chacun mesurant le QI grâce à son propre ensemble unique de piles et d’éléments. Cependant, tous auront une chose en commun; tous mesureront le même (QI/intelligence), puisque tous doivent présenter une forte corrélation avec des outils déjà validés pour être jugés valides.
Et c’est en gros ça !
Notez que nous avons omis de nombreuses étapes et tout simplifié à l’excès afin de tout rendre plus facile à comprendre.
Références:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4096146/
Auteur: