Grootschalig onderzoek onthult bias in AI-gestuurde selectietools

De belofte was verleidelijk: laat AI de cv's screenen, en je krijgt objectieve, onbevooroordeelde selectie. Geen menselijke vooroordelen meer, geen unconscious bias, geen discriminatie. De realiteit blijkt grimmiger. Grootschalig onderzoek gepubliceerd in 2025-2026 onthult dat AI-selectietools systematisch discrimineren - maar op manieren die we nauwelijks hadden voorzien.

Het is niet de dystopie van robots die vrouwen afwijzen omdat ze "vrouw" op hun cv hebben staan. Het is subtieler, complexer, en daardoor moeilijker te detecteren. Large language models (LLMs) - de technologie achter ChatGPT en vergelijkbare systemen - tonen contextuele vormen van bias die variëren per situatie, prompt, en zelfs volgorde van verwerking.

De schokkende bevindingen

Onderzoekers van MIT en Stanford testten meerdere commerciële AI-hiring tools en vonden verbijsterende patronen:

First come, first hired: Sommige AI-modellen bevoordeelden systematisch de eerst verwerkte cv's, ongeacht kwalificatie. De volgorde van uploaden bepaalde deels de ranking.

Inconsistente expertise-herkenning: Dezelfde AI beoordeelde identieke cv's verschillend wanneer ze in andere volgorde werden aangeboden. Het model kon niet consequent de meest gekwalificeerde kandidaat identificeren.

Contextuele bias: Demografische informatie - zelfs indirect, via naam, universiteit of postcode - beïnvloedde scores op manieren die per context verschilden. Een "vrouwelijke" naam help soms, benadeelde soms, afhankelijk van de functie.

Waarom dit zo problematisch is

De EU AI Act classificeert AI-selectietools als hoog-risico, met bijbehorende audit-eisen. Maar hoe audit je een systeem waarvan de bias contextueel varieert? Onderzoekers stellen "dual-validation frameworks" voor: test niet alleen op demografische pariteit maar ook op aantoonbare competentie.

Selection Lab heeft dit risico onderkend door een fundamenteel andere architectuur te kiezen. "Wij gebruiken AI voor procesautomatisering - het genereren van selectieflows, het stroomlijnen van communicatie", legt oprichter Lotte Welten uit. "Maar de daadwerkelijke beoordeling van kandidaten? Dat doen wetenschappelijk gevalideerde assessments, niet LLMs die op cv-data zijn getraind."

Dit onderscheid - AI voor proces versus AI voor beslissing - is precies waar de regulering op mikt. En precies waar de meeste AI-hiring tools de fout ingaan.

Wat nu?

De onderzoekers pleiten voor domein-specifieke modellering. Generieke LLMs zijn getraind op internet-tekst, niet op recruitment. Ze "weten" niet wat een goede accountant maakt - ze reproduceren patronen uit hun training data, inclusief historische bias.

AI voor pre-screening op harde criteria: functie-eisen, certificaten, werkvergunning
Gevalideerde assessments voor soft criteria: persoonlijkheid, competenties, potentieel
Menselijke beoordeling voor finale selectie: met gestructureerde interviews en duidelijke criteria

Assessio en GITP volgen vergelijkbare principes: AI ondersteunt de menselijke expert, maar vervangt die niet. De wetenschap is helder: AI in high-stakes selectie vereist extreme voorzichtigheid, domein-expertise, en continue monitoring.

De takeaway

Als je AI gebruikt in je selectieproces, vraag je af: wat beslist de AI precies? Gaat het om administratieve ondersteuning of om kandidaatbeoordeling? Het eerste kan veilig en efficiënt zijn. Het tweede is een mijnenveld van bias-risico's waar zelfs de beste tech-bedrijven struikelen.

Grootschalig onderzoek onthult bias in AI-gestuurde selectietools

De schokkende bevindingen

Waarom dit zo problematisch is

Wat nu?

De takeaway

Gerelateerde artikelen

Onderzoek: Validiteit persoonlijkheidstests verschilt sterk per context

Meta-analyse Sackett et al.: Cognitieve tests voorspellen werkprestaties minder sterk dan gedacht

Systematische review: Social media screening voor selectie wetenschappelijk problematisch

HEXACO en Dark Triad: Nieuwe studie in Journal of Business Ethics