Item respons theorie

Beoordeling: 4 (1 stem) 1 opmerking

Op het gebied van de Theory of Psychometric Tests zijn verschillende denominaties verschenen die momenteel de naam "Item Response Theory" (FM Lord, 1980) aannemen. Deze benaming vertoont enkele verschillen met het klassieke model: 1.- De relatie tussen de verwachte waarde van de scores van de proefpersoon en het kenmerk (kenmerk dat verantwoordelijk is voor de waarden) is meestal niet lineair. 2.- Het is bedoeld om individuele voorspellingen te doen zonder te hoeven verwijzen naar de kenmerken van de normatieve groep.

Mogelijk bent u ook geïnteresseerd in: Classical Test Theory Index

Theorie van reactie op het item of de modellen van het latente kenmerk in de theorie van tests
Modelresponstheorie-modellen (tri)
Parameter schatting
Test constructie
Toepassingen van itemresponstheorie
Interpretatie van scores

Theorie van de reactie op het item of de modellen van de latente eigenschap in de theorie van tests

We zien dan dat deze Item Response Theory de mogelijkheid biedt om zowel items als individuen afzonderlijk te beschrijven; Het is ook van mening dat de reactie van de proefpersoon afhangt van het vaardigheidsniveau dat hij heeft in het beschouwde bereik. De oorsprong van deze modellen is te danken aan Lazarsfeld, 1950, die de term "latente eigenschap" introduceerde.

Vanaf hier wordt ervan uitgegaan dat elk individu een individuele parameter heeft die verantwoordelijk is voor de kenmerken van het onderwerp, ook wel "eigenschap" genoemd. Deze eigenschap is niet direct meetbaar, daarom wordt de individuele parameter een latente variabele genoemd. Op het moment dat de tests worden toegepast, kunnen twee verschillende dingen worden behaald: de werkelijke score en de schaal van bekwaamheid; Dit wordt bereikt als we twee tests over dezelfde aanleg voor dezelfde groep halen.

In de Latent Trait Theory of Item Response Theory is de werkelijke score de verwachte waarde van de waargenomen score. Volgens Lord zijn werkelijke score en fitheid hetzelfde, maar worden ze uitgedrukt op verschillende meetschalen.

Modelresponstheorie-modellen (tri)

Binomiale foutmodellen: ze werden geïntroduceerd door Lord (1965), die ervan uitgaan dat de waargenomen score overeenkomt met het aantal juiste antwoorden dat in de test is verkregen (waarvan de items allemaal dezelfde moeilijkheid hebben en lokale onafhankelijkheid hebben, dat wil zeggen dat de waarschijnlijkheid het correct beantwoorden van een item wordt niet beïnvloed door de antwoorden op andere items).

Poisson- modellen: deze modellen zijn geschikt voor die toetsen met een groot aantal items en waarbij de kans op een goed of fout antwoord klein is. Binnen deze groep hebben we op onze beurt verschillende modellen:

Rasch's Poissoniaanse model, waarvan de hypothesen zijn: elke test heeft een groot aantal binaire items die lokaal onafhankelijk zijn. de kans op fouten bij elk item is klein. de kans dat de proefpersoon een fout maakt, hangt af van twee dingen: de moeilijkheidsgraad van de test en de vaardigheid van de proefpersoon. de optelling van de moeilijkheden, begrepen als het resultaat van het mengen van twee gelijkwaardige tests in een enkele test waarvan de moeilijkheid de som is van de moeilijkheden van de twee eerste tests.
Poissonmodel om snelheid te evalueren: Dit model werd ook voorgesteld door Rasch en wordt gekenmerkt doordat snelheid wordt meegenomen bij de uitvoering van de test. Het model kan in twee betekenissen worden beschouwd: het tellen van het aantal gemaakte fouten en het lezen van woorden in een tijdseenheid. tel het aantal gemaakte fouten en de tijd die is besteed aan het lezen van de tekst. De kans dat een bepaald aantal woorden van een test (i) wordt uitgevoerd door een proefpersoon (j), gedurende een tijd (t)
Normale kernkopmodellen: het is een model voorgesteld door Lord (1968), dat wordt gebruikt in tests met dichotome items en met een enkele gemeenschappelijke variabele. De grafiek zou de volgende zijn: De basisveronderstellingen die dit model kenmerken zijn:

de ruimte van de latente variant is eendimensionaal (k = 1).
lokale onafhankelijkheid tussen intems.
de metriek voor de latente variabele kan zo worden gekozen dat de curve voor elk item de normale kernkop is.

Logistieke modellen; Het is een model dat erg lijkt op het vorige, maar het heeft ook meer voordelen met betrekking tot de wiskundige behandeling. De logistieke functie heeft de volgende vorm: Er zijn verschillende logistieke modellen, afhankelijk van het aantal parameters dat ze hebben:

Logistiek model met 2 parameters, Birnbaum 1968, onder zijn kenmerken vermelden we dat het eendimensionaal is, dat er lokale onafhankelijkheid is, dat de items dichotoom zijn, enz.
Het logistieke model met drie parameters, Lord, wordt gekenmerkt doordat de kans op correct raden een factor is die de uitvoering van de test zal beïnvloeden. 4.3. Logistisch model met 4 parameters: model voorgesteld door McDonald 1967 en Barton-Lord in 1981, met als doel de gevallen te verklaren waarin personen met een hoge conditie niet correct reageren op het item.
Het logistieke model van Rasch: dit model is het model dat ondanks een nadeel het grootste aantal banen heeft gegenereerd, dit is dat de aanpassing aan echte gegevens moeilijker is, maar in tegenstelling hiermee is het voordeel dat het zo veel gebruikt Er zijn geen grote steekproeven nodig voor aanpassing.

Parameter schatting

De meest gebruikte methode is de Maximum Likelihood, samen met deze methode worden numerieke benaderingsprocedures zoals Newton-Raphson en Scoring (Rao) gebruikt. De Maximum Likelihood-methode is gebaseerd op het principe van het verkrijgen van schatters van de onbekende parameters die de kans op het verkrijgen van dergelijke steekproeven maximaliseren. Naast de maximale waarschijnlijkheid wordt ook de Bayesiaanse schatting gebruikt, gebaseerd op de Bayes-stelling, die erin bestaat alle bekende informatie a priori op te nemen die relevant is voor het maken van conclusies. Een meer diepgaande studie van de Bayesiaanse methode voor het schatten van fitnessparameters wordt uitgevoerd door Birnbaum (1996) en Owen (1975).

INFORMATIE FUNCTIES

De beste test die kan worden gemaakt, is degene die de meeste informatie over de latente eigenschap biedt. De kwantificering van deze informatie gebeurt via de "informatiefuncties". De formule van de informatiefunctie, Birnbaum 1968, is de volgende: er moet rekening mee worden gehouden dat de informatie verkregen in een test de som is van de informatie van elk item, bovendien is de bijdrage van elk item niet afhankelijk van de rest van de items die de test vormen. In algemene termen kunnen we zeggen dat de informatie in alle modellen:

varieert met fitnessniveaus.
hoe groter de helling van de curve, hoe meer informatie.
het hangt af van de variantie van de scores, hoe hoger het is, hoe minder informatie.

Test constructie

De eerste taak en een van de belangrijkste bij het samenstellen van een test is de keuze van items, voorafgaande overeenstemming over de theoretische aannames die de eigenschap moeten definiëren die de test beoogt te meten. Het concept "Analyse van items" verwijst naar de reeks formele procedures die worden uitgevoerd om die items te selecteren die uiteindelijk de test zullen vormen. De informatie die met betrekking tot de items het meest relevant wordt geacht, is:

Item moeilijkheid, percentage personen dat het goed doet.
Discriminatie, correlatie van elk item met de totale score op de test.
Afleiders of foutenanalyse, hun invloed is relevant, beïnvloedt de moeilijkheidsgraad van het item en zorgt ervoor dat de discriminatiewaarden worden onderschat.

Bij het vaststellen van indicatoren van de verschillende indices worden meestal enkele statistieken of indices gebruikt, waarvan de volgende het meest worden gebruikt:

Moeilijkheidsindex Discriminatie- index Betrouwbaarheidsindex Validiteitsindex Als we de indexen kennen waarmee rekening moet worden gehouden bij de selectie van de items die de test zullen vormen, gaan we bekijken welke stappen nodig zijn voor de constructie van een test:

Specificatie van het probleem.
Maak een lijst van een grote set items en debug ze.
Modelkeuze.
Test de voorgeselecteerde items.
Selecteer de ideale items.
Bestudeer de kwaliteiten van de test
Stel de interpretatieregels van de verkregen eindtoets vast.

Uit de voorgaande punten moet worden opgemerkt dat de keuze van het model, punt 3, afhangt van de doelstellingen die door de test worden nagestreefd, de kenmerken en kwaliteit van de gegevens en de beschikbare middelen. Wanneer een model wordt gekozen, zijn de theoretische voorwaarden waarin het kan worden toegepast al gegeven, maar de deugden moeten in elk geval en in specifieke omstandigheden worden geanalyseerd. De eigenschappen die toe te schrijven zijn aan de modellen die de Item Response Theory (TRI) integreren, kunnen worden beïnvloed door:

de dimensionaliteit van de test de schaarse beschikbaarheid van de steekproef gebrek aan computerbronnen Er zijn een aantal voorkeuren bij het gebruik van een of de andere modellen, laten we ze eens bekijken: normale kernkopmodellen worden meestal niet gebruikt in toepassingen, hun waarde is theoretisch.
Rasch: geschikt voor horizontale vergelijking (vergelijkbare tests op moeilijkheidsgraden met vergelijkbare vaardigheidsverdelingen). om verschillende vormen van dezelfde test te hebben. * 2 en 3 parameters: dit zijn de parameters die het beste passen bij verschillende problemen.
om verkeerde reactiepatronen te detecteren. voor verticale afstemming van tests (vergelijkt tests met verschillende moeilijkheidsgraden en verschillende verdelingen voor geschiktheid).

1 en 2 parameters:

geschikt voor het bouwen van een enkele schaal zodat vaardigheden op verschillende niveaus kunnen worden vergeleken.

De keuze van het model kan, naast het nagestreefde doel, worden beïnvloed door de omvang van de steekproef; In het geval dat de steekproef groot en representatief is, zal er geen probleem zijn, of dit nu het klassieke of latente kenmerkmodel is. Maar in IRT (item response theory) dwingt een kleine steekproef om modellen te kiezen met een klein aantal parameters, zelfs het uniparametrische model.

Toepassingen van itemresponstheorie

We gaan kijken wat de meest voorkomende toepassingen zijn: a) Testmatching, soms is het nodig om de scores behaald in verschillende tests te relateren, met twee mogelijke doelen:

Horizontale egalisatie: het tracht verschillende vormen van dezelfde test te verkrijgen.
Verticale egalisatie: probeert een enkele vaardigheidsschaal op te bouwen met verschillende moeilijkheidsgraden. Met betrekking tot de vereffening van tests introduceert Lord (1980) het concept van 'billijkheid', wat inhoudt dat voor elk onderwerp twee tests uitwisselbaar kunnen zijn, aangezien wordt toegepast dat de een of de ander het geschatte niveau van bekwaamheid niet zal veranderen voor het onderwerp.

Studie van item bias, een item is vertekend wanneer het gemiddeld significant verschillende scores geeft in specifieke groepen waarvan wordt aangenomen dat ze deel uitmaken van dezelfde populatie.

Aangepaste of gemiddelde tests, door middel van IRT, kunnen geïndividualiseerde tests worden geconstrueerd die het mogelijk maken om de werkelijke waarde van het kenmerk in kwestie op een nauwkeurigere manier af te leiden. De items worden opeenvolgend beheerd, de presentatie van het ene of het andere item hangt af van de eerder gegeven antwoorden. Er zijn verschillende soorten aangepaste tests, we wijzen op het volgende:

procedure in twee fasen, Lord 1971; Bertz en Weiss 1973 - 1974. Afhankelijk van de resultaten wordt eerst dezelfde test gehaald en wordt een tweede test afgenomen.
Procedure in verschillende fasen, het is hetzelfde als de vorige alleen dat het proces meer fasen omvat.
Vast vertakt model, Lord 1970, 1971, 1974; Mussio 1973. Alle proefpersonen lossen hetzelfde item op, volgens het antwoord is een reeks items opgelost.
Variabel vertakt model is gebaseerd op de onafhankelijkheid tussen de items en op de eigenschappen van de maximale waarschijnlijkheidsschatters.

Itembank, het hebben van een grote set items is iets dat de kwaliteit van de test zal verbeteren, maar hiervoor moeten de items eerst een debuggingproces doorlopen. Om de items te classificeren, is het noodzakelijk om rekening te houden met het kenmerk waarvan de test waarvan dit item deel zal uitmaken, bedoeld is om te meten.

Interpretatie van scores

Schalen: het doel is om een continuüm te bieden om te kunnen ordenen, classificeren of weten wat de relatieve omvang van de geëvalueerde eigenschap is; Hierdoor kunnen we verschillen en overeenkomsten tussen mensen vaststellen met betrekking tot die eigenschap. De schalen die in de psychologie worden gebruikt zijn: nominaal, ordinaal, interval en ratio; Deze schalen zijn opgebouwd uit de resultaten van de tests, resultaten genaamd "directe scores".

Typify: typify een test is om de directe scores om te zetten in andere die gemakkelijk te interpreteren zijn, aangezien de getypeerde score de positie van het onderwerp ten opzichte van de groep onthult en ons in staat zal stellen om intra- en inter-subject-vergelijkingen te maken. Er zijn twee soorten typen:

Lineair, ze behouden de vorm van de distributie en wijzigen de grootte van de correlaties niet.
Ze zijn niet-lineair en behouden niet de verdeling of de omvang van de correlaties.

GESCHIKTHEIDSSCHAAL In IRT is de schaal die wordt geconstrueerd de schaal die overeenkomt met de niveaus van bekwaamheid; Deze schaal wordt gekenmerkt doordat de schattingen en verwijzingen direct worden gemaakt met betrekking tot de geschiktheid en de schaal ervan. Bovendien hangt deze geschatte geschiktheid alleen af van de vorm van de karakteristieke curve van de items. Onder de mogelijke schalen noemen we twee:

Schaal, voorgesteld door Woodcock (1978) en wordt gedefinieerd door de volgende formule:
WITS-schaal, voorgesteld door Wright (1977), deze schaal is een wijziging van de vorige en wordt gegeven door de volgende relatie:

Dit artikel is louter informatief, in Psychology-Online hebben we niet de bevoegdheid om een diagnose te stellen of een behandeling aan te bevelen. We nodigen u uit om naar een psycholoog te gaan om uw specifieke geval te behandelen.

Als je meer artikelen wilt lezen die vergelijkbaar zijn met Item Response Theory - Applications and Test, raden we je aan om onze categorie Experimentele psychologie in te voeren.

Inhoudsopgave: