Théorie de la réponse à l'item - Applications et test

Dans le domaine de Théorie des tests psychométriques Différentes dénominations sont apparues et portent actuellement le nom de "Théorie de la réponse par élément" (F.M. Lord, 1980). Cette dénomination présente quelques différences par rapport au modèle classique: 1.- La relation entre la valeur attendue des scores du sujet et le trait (caractéristique responsable des valeurs) n'est généralement pas linéaire. 2.- a l'intention de faire des prédictions individuelles sans avoir à se référer aux caractéristiques du groupe normatif.

Vous pouvez également être intéressé par: Théorie des tests classiques Index

Théorie de la réponse à l'item ou modèles du trait latent dans la théorie des tests
Modèles de théorie de la réponse à l'item (tri)
Estimation des paramètres
Construction d'essai
Applications de la théorie de la réponse à l'item
Interprétation des partitions

Théorie de la réponse à l'item ou modèles du trait latent dans la théorie des tests

Nous voyons donc que cette théorie de la réponse à l’item offre la possibilité de décrire séparément les items ainsi que les individus; Il considère également que la réponse donnée par le sujet dépend du niveau de compétence de la gamme considérée. L’origine de ces modèles est due à Lazarsfeld, 1950, qui a introduit le terme "trait latent" .

À partir de là, on considère que chaque individu a un paramètre individuel responsable des caractéristiques du sujet, appelé également "trait". Cette caractéristique n'est pas directement mesurable, c'est pourquoi le paramètre individuel est appelé variable latente. En appliquant les tests, vous pouvez obtenir deux choses différentes: le score réel et l'échelle de fitness. Ceci est obtenu si nous passons deux tests sur la même condition physique au même groupe.

Dans la théorie des caractères latents ou la théorie de la réponse à l'élément Le vrai score est la valeur attendue du score observé. Selon Lord, le vrai score et la bonne condition physique sont la même chose mais sont exprimés à différentes échelles de mesure..

Modèles de théorie de la réponse à l'item (tri)

Modèles d'erreur binomiales: introduits par Lord (1965), qui supposent que le score observé correspond au nombre de réponses correctes obtenues dans le test (dont les items ont tous la même difficulté et ont une indépendance locale, c'est-à-dire la probabilité répondre correctement à un élément n'est pas affecté par les réponses aux autres éléments).

Modèles de Poisson: ces modèles conviennent aux tests comportant un grand nombre d’éléments et pour lesquels la probabilité d’une réponse correcte ou incorrecte est faible. Dans ce groupe, nous avons différents modèles:

Modèle de Poisson de Rasch, dont les hypothèses sont les suivantes: chaque test comporte un grand nombre d’éléments binaires indépendants localement. la probabilité d'erreur dans chaque élément est faible. La probabilité que le sujet commette une erreur dépend de deux facteurs: la difficulté du test et son aptitude. l'additivité des difficultés, comprise comme le résultat du mélange de deux tests équivalents dans un seul test dont la difficulté est la somme des difficultés des deux tests initiaux.
Modèle de Poisson pour évaluer la vitesse: Ce modèle a également été proposé par Rasch et se caractérise par le fait que la rapidité d'exécution du test est prise en compte. Le modèle peut être posé de deux manières: compter le nombre d'erreurs commises et lire les mots dans une unité de temps. compter le nombre d'erreurs commises et le temps passé à lire le texte. La probabilité de réalisation d'un certain nombre de mots d'un test (i) par un sujet (j), pendant un temps (t)
Modèles normaux d'Ojiva: est un modèle proposé par Lord (1968), utilisé dans les tests avec des items dichotomiques et avec une seule variable en commun, dont le graphique serait le suivant: Les hypothèses de base qui caractérisent ce modèle sont les suivantes:

l'espace de la variante latente est unidimensionnel (k = 1).
indépendance locale entre les intems.
la métrique de la variable latente peut être choisie de telle sorte que la courbe de chaque élément soit la charge militaire normale.

Modèles logistiques; C'est un modèle très similaire au précédent mais il présente également plus d'avantages par rapport à son traitement mathématique. La fonction logistique prend la forme suivante: Il existe différents modèles logistiques en fonction du nombre de paramètres ayant:

Modèle logistique à 2 paramètres, Birnbaum 1968, parmi ses caractéristiques, nous mentionnons qu’il est unidimensionnel, qu’il existe une indépendance locale, que les éléments sont dichotomiques, etc.
Modèle logistique à 3 paramètres, Seigneur, se caractérise par le fait que la probabilité de bien deviner est un facteur qui influencera la performance du test. 4.3. Modèle logistique à 4 paramètres: modèle proposé par McDonald 1967 et Barton-Lord en 1981, dont le but est d'expliquer les cas dans lesquels les sujets ayant un niveau de condition physique élevé ne répondent pas correctement à l'item.
Modèle logistique de Rasch: C’est ce modèle qui a généré le plus grand nombre d’emplois malgré son inconvénient, c’est que son ajustement aux données réelles est plus difficile, mais à l’opposé de l’avantage qui le rend si utilisé, c’est qu’il ne nécessite pas de Tailles d'échantillons pour votre ajustement.

Estimation des paramètres

La méthode la plus utilisée est la vraisemblance maximale. À côté de cette méthode, des procédures d'approximation numérique sont utilisées, telles que Newton-Raphson et Scoring (Rao). La méthode du maximum de vraisemblance repose sur le principe de l'obtention d'estimateurs de paramètres inconnus maximisant la probabilité d'obtenir lesdits échantillons. Outre le maximum de vraisemblance, l'estimation bayésienne est également utilisée, sur la base du théorème de Bayes, qui consiste à incorporer toutes les informations connues, a priori, pertinentes pour le processus de déduction. Birnbaum (1996) et Owen (1975) ont étudié de manière plus approfondie la méthode bayésienne d'estimation des paramètres de condition physique. .

FONCTIONS D'INFORMATION

Le meilleur test que l'on puisse construire est celui qui fournit le plus d'informations sur le trait latent. La quantification de ces informations se fait via les "fonctions d'information". La fonction d'information, Birnbaum 1968, est la suivante: Il faut tenir compte du fait que l'information obtenue lors d'un test est la somme des informations de chaque élément. De plus, la contribution de chaque élément ne dépend pas du reste des éléments. qui composent le test. De manière générale, nous pouvons dire que l'information, dans tous les modèles:

varie avec le niveau de forme physique.
Plus la pente de la courbe est grande, plus on dispose d'informations.
dépend de la variance des scores, plus il est élevé, moins il y a d'informations.

Construction d'essai

La première tâche et l'un des plus importants au moment de la construction d'un test est le choix des éléments, accord préalable des hypothèses théoriques devant définir l'objet que le test a pour objectif de mesurer. Le concept "analyse des éléments" désigne l'ensemble des procédures formelles mises en œuvre pour sélectionner les éléments qui constitueront éventuellement le test. Les informations considérées comme les plus pertinentes en ce qui concerne les articles sont les suivantes:

Difficulté de l'article, pourcentage d'individus qui le corrigent.
Discrimination, corrélation de chaque élément avec le score total au test.
Distracteurs ou analyse d'erreur, son influence est pertinente, affecte la difficulté de l'item et rend les valeurs de discrimination sous-estimées.

Lors de l’établissement des indicateurs des différents indices, on utilise généralement des statistiques ou des indices, les suivants étant les plus utilisés:

Indice de difficulté Index de discrimination Indice de fiabilité Indice de validité Indices connus à prendre en compte pour la sélection des éléments qui constitueront le test, nous verrons quelles étapes sont nécessaires à la construction d'un test:

Spécification du problème.
Énoncer un large ensemble d'éléments et les déboguer.
Choix du modèle.
Tester les éléments présélectionnés.
Sélectionnez les meilleurs articles.
Etudier les qualités du test
Etablir les normes d'interprétation du test final obtenu.

A partir des points précédents, il convient de noter que le choix du modèle, point 3, dépendra des objectifs poursuivis par le test, des caractéristiques et de la qualité des données, ainsi que des ressources disponibles. Quand un modèle est choisi, compte tenu des conditions théoriques dans lesquelles il peut être appliqué, aucune malgré ses vertus doivent être analysés dans chaque cas et circonstances spécifiques. Les propriétés attribuables à ces modèles qui composent la Théorie de la réponse à la question (TRI), peut être affecté par:

la dimensionnalité du test la disponibilité rare de l’échantillon, le manque de ressources informatiques Il existe un certain nombre de préférences lorsqu’on utilise un ou plusieurs modèles, voyons-les-nous: les modèles d’ogives normales ne sont généralement pas utilisés dans les applications, leur valeur est théorique.
Rasch: convient à la comparaison horizontale (tests comparables sur les niveaux de difficulté avec des distributions de condition physique similaires). avoir différentes formes du même test. * 2 et 3 paramètres: sont ceux qui conviennent le mieux à une variété de problèmes.
pour détecter des modèles de réponse erronés. pour l'égalisation verticale des tests (comparez les tests avec différents niveaux de difficulté et différentes distributions pour la condition physique).

1 et 2 paramètres:

approprié pour construire une seule échelle, afin que vous puissiez comparer les compétences à différents niveaux.

Le choix du modèle, en plus du but recherché, peut être affecté par la taille de l'échantillon; Dans le cas où l'échantillon est grand et représentatif, il n'y aura aucun problème, ni le modèle classique ni le trait latent. Mais dans le TRI ( théorie de la réponse à l'item ) un petit échantillon vous oblige à choisir des modèles avec un petit nombre de paramètres, même le modèle uniparamètre.

Applications de la théorie de la réponse à l'item

Voyons quelles sont les applications les plus courantes: a) Égalisation des tests, il est parfois nécessaire de relier les scores obtenus lors de différents tests, avec deux objectifs possibles:

Égalisation horizontale: on cherche à obtenir différentes formes du même test.
Égalisation verticale: l’objectif est de construire une seule échelle d’aptitude avec différents niveaux de difficulté. En ce qui concerne l'égalisation des tests, Lord (1980) introduit le concept "d'équité", ce qui implique que pour chaque sujet, deux tests peuvent être interchangeables car il est appliqué que l'un ou l'autre ne modifiera pas le niveau d'aptitude qui avait été estimé. pour le sujet.

Étude du biais des items, un item est biaisé quand, en moyenne, il donne des scores très différents dans des groupes spécifiques supposés appartenir à la même population.

Tests adaptés ou moyens , Grâce au TRI, il est possible de construire des tests individualisés permettant de déduire de manière plus précise la vraie valeur du trait en question. Les éléments seront administrés de manière séquentielle, la présentation de tel ou tel élément dépendra des réponses données ci-dessus. Il existe différents types de tests adaptés, nous soulignons les suivants:

procédure en deux étapes, Lord 1971; Bertz et Weiss 1973 - 1974. Un test est réussi en premier et, en fonction des résultats, un second test est administré.
Procédure en plusieurs étapes, identique à la précédente, seul le processus comprend plus d'étapes.
Modèle à branches fixes, Lord 1970, 1971, 1974; Mussio 1973. Tous les sujets résolvent le même sujet, en fonction de la réponse, un ensemble de problèmes est résolu.
Modèle ramifié variable, basé sur l'indépendance entre les items et les propriétés des estimateurs du maximum de vraisemblance.

Banque d'objets, Avoir un grand ensemble d'éléments est un élément qui améliorera la qualité du test, mais pour cela, les éléments doivent d'abord passer par un processus de débogage. Afin de classer les éléments, il est nécessaire de prendre en compte quelle fonctionnalité est destinée à mesurer le test auquel cet élément fera partie..

Interprétation des partitions

Échelles: son but est d’offrir un continuum pour ordonner, classer ou savoir quelle est l’ampleur relative de la caractéristique évaluée; cela nous permettra d’établir des différences et des similitudes chez les personnes en ce qui concerne ce trait. Les échelles utilisées en psychologie sont les suivantes: nominal, ordinal, intervalle et raison; ces échelles sont construites à partir des résultats des tests, résultats appelés "scores directs" .

Typifier : caractériser un test, c’est transformer les scores directs en d’autres facilement interprétables puisque le score typé révélera la position du sujet par rapport au groupe et permettra de faire des comparaisons intra et inter-objets. Il existe deux types de frappe:

Linéaire, conserve la forme de la distribution et ne modifie pas la taille des corrélations.
Non linéaires, ils ne préservent pas la distribution ni la taille des corrélations .

ÉCHELLE DE FITNESS Dans le TRI, l’échelle construite est celle qui correspond au niveau de condition physique; Cette échelle est caractérisée par le fait que les estimations et les références sont faites directement en ce qui concerne l'aptitude et son échelle. De plus, cette aptitude estimée ne dépend que de la forme de la courbe caractéristique des objets. Dans les échelles possibles, nous en indiquons deux:

Échelle, proposée par Woodcock (1978) et définie par la formule suivante:
Échelle WITS, proposée par Wright (1977), cette échelle est une modification de la précédente et est donnée par la relation suivante:

« Théorie des systèmes ouverts - Définition et caractéristiques Théorie de Michael Tomasello, qu'est-ce qui nous rend humain? »