Künstliche Intelligenz (AI) in der Personalauswahl
|
Einführung
Der Einsatz künstlicher Intelligenz (KI) zur Unterstützung von Personalauswahlentscheidungen reicht bis in die 1980er Jahre zurück, als KI in Form von Expertensystemen eingesetzt wurde (Hooper et al., 1990). Expertensysteme übersetzten das implizite und explizite Wissen von Experten wie Personalmanagern (HR) und Betriebsorganisationspsychologen (IO) in Wenn-Dann-Regeln (z. B. „Wenn der Kandidat über relevante Berufserfahrung verfügt, erhöhen Sie den Job-Fit-Score.“ ‚). Dieser regelbasierte Ansatz scheiterte letztendlich, weil er die Komplexität menschlicher Entscheidungsfindung, einschließlich Einstellungsentscheidungen, nicht widerspiegelte (wie von Davis & King, 1984, S. 29 erläutert).
Mit konzeptionellen Durchbrüchen in diesem Jahrhundert und der zunehmenden Rechenleistung von Computern sind KI-Tools allgegenwärtig geworden. Das 2022 veröffentlichte Generative Large Language Model ChatGPT von OpenAI war ein bedeutender Meilenstein in der öffentlichen Anerkennung von KI.
KI wird heute in fast allen Bereichen des Arbeits- und Privatlebens eingesetzt, unter anderem bei der Beurteilung von Personen und bei Einstellungsprozessen.
Dieser Artikel beschreibt zunächst die vielfältigen Einsatzmöglichkeiten von Algorithmen und KI bei der Auswahl und Bewertung und skizziert anschließend den Einsatz von KI in diesem Zusammenhang anhand praktischer Beispiele aus der eigenen Praxis. Abschließend werden die ethischen und rechtlichen Implikationen diskutiert und ein Ausblick auf zukünftige technologische Entwicklungen und deren Auswirkungen auf Auswahl und Bewertung gegeben.
Grundlagen der KI in Auswahl und Bewertung
Heutzutage werden viele Technologien als KI vermarktet, aber nicht alle davon sind wirklich intelligent. Einige basieren auf Algorithmen, die Psychologen seit Jahren verwenden.
Supervised Machine Learning
Eine dieser Methoden ist das überwachte maschinelle Lernen, bei dem Algorithmen mit Hilfe eines Computers entwickelt, aber von Experten überwacht werden. Diese Algorithmen basieren auf statistischen Methoden wie der linearen oder polynomialen Regression. Ein klassisches Beispiel ist die Vorhersage der Arbeitsleistung (abhängige Variable) auf der Grundlage verschiedener unabhängiger Variablen (Prädiktoren) wie GMA-Werten und anderen Testergebnissen (z. B. Persönlichkeitsdimensionen). Aus den Daten wird eine empirische Regressionsgleichung berechnet und dann auf neue Kandidaten angewendet. Anschließend wird anhand eines Cut-off-Werts entschieden, ob ein Kandidat eingestellt werden soll oder nicht.
Einstellungsentscheidungen auf der Grundlage von Regressionsstatistiken, empirischen Daten und dem Abgleich mit psychologischen Theorien und früheren Erkenntnissen sind eine gültige Möglichkeit, Algorithmen im Einstellungsprozess anzuwenden (z. B. Tews, 2011).
Es ist jedoch wichtig zu beachten, dass verzerrte, veraltete oder nicht repräsentative Trainingsdaten die Wirksamkeit des Algorithmus negativ beeinflussen können (siehe Goretzko, 2022).
Neuronale Netze
Neuronale Netze sind Algorithmen, die die menschliche Wahrnehmung und Mustererkennung nachahmen. Sie werden mit großen Mengen gekennzeichneter Trainingsdaten trainiert, um zu lernen, wie die Ausgabe repliziert werden kann. Ein Beispiel hierfür ist ein neuronales Netz, das lernt, visuelle Daten zu erkennen, beispielsweise das Bild einer Katze oder eines Hundes zu unterscheiden oder handgeschriebene Buchstaben zu unterscheiden. Der Lernprozess findet ohne menschliche Interaktion statt und ist größtenteils verborgen. Zwischen der Eingabe, wie zum Beispiel Bildern, gesprochener Sprache oder Testergebnissen, und der Ausgabe, wie zum Beispiel dem Inhalt des Bildes, gesprochenen Worten oder der Einstellungsentscheidung, gibt es mehrere verborgene Schichten simulierter Neuronen. Dieser Prozess des Trainings neuronaler Netze mit großen Datenmengen und der Verwendung mehrerer verborgener Neuronenschichten wird auch als „Deep Learning“ bezeichnet.
Neuronale Netze können komplexere Daten verarbeiten als einfache statistische Algorithmen.
Auch wenn es verlockend sein mag, neuronale Netze zur Unterstützung von Einstellungsentscheidungen zu nutzen, indem man sie mit historischen Daten trainiert, wie etwa der Arbeitsleistung eines Mitarbeiters nach seiner Einstellung, ist es wichtig, potenzielle Verzerrungen zu berücksichtigen und sicherzustellen, dass alle getroffenen Entscheidungen fair und objektiv sind. Im Gegensatz zu einfachen Algorithmen für maschinelles Lernen, die statistische Methoden verwenden, basieren neuronale Netze nicht auf Korrelationskoeffizienten oder Betagewichten. Die den Eingabevariablen zugewiesenen Gewichtungen sind in den Schichten des Netzwerks verborgen, was es für Psychologen schwierig macht, festzustellen, ob die Ausgabe verzerrt ist. Organisationen sammeln eine Fülle von Daten über Kandidaten und Mitarbeiter, darunter Tests, Assessment Center, Bewertungen von Vorgesetzten und biografische Daten. Es ist jedoch wichtig, mit den Bewertungsergebnissen maschineller Lernalgorithmen vorsichtig umzugehen. Beispielsweise könnten Psychologen von Erkenntnissen verwandter Bereiche wie der Medizin profitieren, die großes Interesse an KI-basierten Diagnosen unter Verwendung von Röntgenstrahlen und klinischen Daten gezeigt hat. Varoquaux und Cheplygina (2022) diskutieren die Herausforderungen der Anwendung von maschinellem Lernen auf die medizinische Bildgebung, einschließlich Datensatzverzerrungen, Bewertungsungenauigkeiten und Veröffentlichungsanreizen, die den Fortschritt behindern und folglich zu falschen Diagnosen führen. Die Autoren betonen, dass größere Datensätze nicht unbedingt zu besseren Ergebnissen führen, insbesondere in komplexen medizinischen Szenarien. Sie beschreiben mehrere Studien, die zeigen, wie auf KI basierende Diagnosen verzerrt sein und zu falschen Schlussfolgerungen führen können.
Verarbeitung natürlicher Sprache (NLP)
NLP basiert auf vortrainierten neuronalen Netzen und kann gesprochene Sprache in schriftliche Form wie Lebensläufe, Motivationsschreiben, Aufzeichnungen von Assessment-Center-Übungen oder Interviews übertragen. Diese schriftliche Form kann dann mithilfe von Techniken wie Linguistic Inquiry and Word Count Analysis (LIWC, siehe Boyd et al., 2022) oder der Bewertung der Antworten der Kandidaten auf Basis von BARS (Liu, 2023b) bewertet werden. Liu (2023a) erklärt, wie NLP auf Aufzeichnungen von AC-Übungen und Interviews angewendet werden kann. Liu (2023a) weist jedoch darauf hin, dass NLP-Systeme oft als „Black Boxes“ betrachtet werden, was bedeutet, dass selbst Forscher möglicherweise nur begrenzte Kenntnisse darüber haben, wie und warum der Computer bestimmte Entscheidungen trifft. Sie fahren fort: „… die Möglichkeit zu zeigen, wie sich die Bewertungsreize und/oder Prädiktoren auf berufsrelevante KSAOs beziehen (…), ist eine wichtige Möglichkeit, die Interpretierbarkeit sicherzustellen, noch bevor Modelle erstellt werden.“
Large Language Models (LLMs)
Ein Large Language Model (LLM) ist ein künstliches Intelligenzsystem, das darauf ausgelegt ist, menschliche Sprache (neuerdings auch: Bilder und Videos) zu verstehen, zu generieren und mit ihr zu arbeiten. Es basiert auf Deep-Learning-Algorithmen und analysiert große Mengen an Textdaten, um Sprachmuster, Grammatik, Kontext und Nuancen zu lernen. LLMs können eine Vielzahl von Aufgaben erfüllen, wie etwa das Beantworten von Fragen, das Vervollständigen von Sätzen, das Übersetzen von Sprachen und sogar das Erstellen von Inhalten, die menschliche Schreibstile nachahmen. Die Fähigkeit der LLMs, Text vorherzusagen und zu generieren, je mehr Daten sie für das Training zur Verfügung gestellt bekommen. Einige bekannte Beispiele dieser Modelle sind GPT von OpenAI, Gemini von Google, Llama von Meta und Mistral (die beiden letztgenannten sind Open-Source-Modelle). Diese Modelle demonstrieren die Fähigkeit der Technologie, Texte zu verstehen und zu produzieren, die oft nicht von menschlicher Schrift zu unterscheiden sind.
Seit sie im Dezember 2022 einer breiteren Öffentlichkeit zugänglich gemacht wurden, werden LLMs in einer Vielzahl von Anwendungen eingesetzt, darunter beim Verfassen von Reden, Drehbüchern, Gedichten und wissenschaftlichen Artikeln. Die Fähigkeit der LLMs, menschliche Sprache zu analysieren und zu generieren, ist beeindruckend. Allerdings ist es für jeden Nutzer von LLMs wichtig, sich deren Risiken und Grenzen bewusst zu sein:
Halluzinationen
LLMs neigen dazu, falsche Informationen zu erzeugen, die auch als „Halluzinationen“ bezeichnet werden. Beispielsweise führte der Autor ein Experiment mit ChatGPT (zu Bildungszwecken) durch, indem er eine Zusammenfassung für eine Arbeit zu einem absurden Thema („Homöopathische Behandlung von Knieproblemen“) anforderte und Verweise auf wissenschaftliche Arbeiten einfügte (was natürlich nicht möglich war). existieren, weil der Homöopathie wissenschaftliche Beweise fehlen). Das LLM stimmte zu und erstellte eine Zusammenfassung zusammen mit mehreren Referenzen, die alle vollständig erfunden waren. LLMs generieren häufig Informationen, die glaubwürdig klingen, aber völlig unwahr oder irreführend sind.
Vorurteile
LLMs sind genauso voreingenommen wie ihre Trainingsdaten, sie reproduzieren bestehende Vorurteile. LLMs haben sogar ihre eigene „Persönlichkeit“ (Pellert et al., 2023) – was natürlich auch zu Voreingenommenheit in ihren Antworten führt.
Selbstreferenzielle Daten
Die Qualität von LLMs hängt stark von der Quantität und Qualität der Trainingsdaten ab. Da ein zunehmender Anteil der verfügbaren Trainingsdaten, nämlich der Inhalte des Internets, selbst von KI generiert wird, könnten LLMs möglicherweise in eine rekursive Todesspirale geraten. Schon heute stoßen die großen Internetfirmen (Meta, OpenAI, Google) an die Grenze, neues Trainingsmaterial zu gewinnen, da alle im Internet vorhandenen legal zugänglichen Texte bereits zum Training der Modelle verwendet wurden.
Auf Internetdaten geschult
LLMs werden mithilfe von Daten aus dem Internet trainiert. Daher basieren ihre Ratschläge auf dem Median der im Internet gefundenen Texte, was zu veralteten wissenschaftlichen Erkenntnissen, dem Ausschluss von Minderheitenmeinungen und der Missachtung von Erkenntnissen führen kann, die für bestimmte Zielgruppen relevant sind.
Datenprivatsphäre
Kommerzielle Anbieter von Sprachmodellen wie OpenAI und Google beanspruchen das Recht, von Benutzern hochgeladene Daten zu analysieren, um ihre Algorithmen zu verbessern. Daher müssen sich Organisationen oder Psychologen, die Tools wie ChatGPT verwenden möchten, um versteckte Muster in ihren Daten zu identifizieren, wie z. B. psychometrische Testdaten oder Mitarbeiterdatenbanken, möglicherweise mit Datenschutzbedenken konfrontiert sehen. Selbst wenn die Daten anonymisiert sind, könnten sie dennoch wertvolle vertrauliche Informationen preisgeben. Daher wird dringend davon abgeraten, kommerzielle LLMs zur Analyse psychologischer Daten zu verwenden. Stattdessen ist es besser, eines der vielen Open-Source-Modelle (etwa: Llama3, Mistral7B) zu verwenden, die zum Download zur Verfügung stehen und auf einem Standard-Desktop- oder Laptop-Computer ausgeführt werden können. Selbst große Modelle laufen effizient auf handelsüblicher Hardware. Beispielsweise kann das Open-Source-Modell Mistral7B, das aus 7 Milliarden Parametern besteht, als Datei mit einer Größe von nur 4,3 Gigabyte heruntergeladen werden. Nach dem Herunterladen auf einen lokalen Computer kann das Modell sensible Daten verarbeiten, ohne die Privatsphäre zu beeinträchtigen.
Prompt Transformation
Einige LLMs verwenden eine Technologie namens Prompt Transformation. Diese Technologie nimmt Benutzereingabeaufforderungen auf und schreibt sie neu, um die Qualität der Antwort zu verbessern oder bestehende Vorurteile im LLM auszugleichen. Wenn der Benutzer beispielsweise einen bilderzeugenden LLM auffordert, ein Bild eines Piloten zu erstellen, kann der LLM ohne Prompt Transformation aufgrund bestehender Vorurteile ein Bild eines weißen männlichen Piloten erzeugen. Die Prompt-Transformation schreibt die Eingabeaufforderung des Benutzers neu, um ein nicht-stereotypisches Bild eines Piloten zu erzeugen. Während die Technologie darauf abzielt, Vorurteile im LLM zu beseitigen, bestehen ethische Bedenken hinsichtlich der Unkenntnis des Benutzers über den Umschreibungsprozess.
Finetuning von LLMs
Ein interessanter Aspekt von LLMs besteht darin, dass öffentlich verfügbare Modelle wie Llama oder Mistral von Forschern genau auf ihre spezifischen Bedürfnisse abgestimmt werden können (Zhang, 2023). Die Feinabstimmung ist ein sorgfältiger Prozess, der eine sorgfältige Datenvorbereitung, die Zuführung einer großen Anzahl von Frage-Antwort-Paaren in das Modell und eine gewisse Rechenleistung erfordert. Es ermöglicht Organisationen und Psychologen jedoch, ihr eigenes KI-System aufzubauen, ohne bei Null anfangen zu müssen.
Nutzung lokaler Daten
Zudem ist es möglich, lokale (häufig recht kleine) Modelle auf spezifische Daten zugreifen zu lassen, das erspart den rechenaufwändigen Prozess des Finetunings. Idealersweise liegen die Daten – etwa Handbücher – in Form einer Datenbank vor, die dann mit entsprechenden OpenSource Programmen in Vektordaten oder JSON-Dateien umgewandelt werden. Der Autor hat so beispielsweise Mistral7B um eine Datenbank mit Textbausteinen für die Auswertung eines Persönlichkeitstests ergänzt, so dass das System komplexe Skalenkonfigurationen in natürlicher Sprache beschreiben kann.
Anwendungen von KI bei der Beurteilung und Auswahl
Zum jetzigen Zeitpunkt wird KI bereits häufig im Zusammenhang mit Beurteilung und Auswahl eingesetzt. Dies umfasst unter anderem die folgenden Bereiche:
Assessment-Center
Für Beurteilungen ist häufig die Erfassung unstrukturierter Daten in Form von offenem Text, Audioaufzeichnungen und Videoaufnahmen erforderlich, beispielsweise aus Vorstellungsgesprächen oder Assessment-Center-Übungen. Die manuelle Bewertung dieser Daten, die eine Transkription und Expertenbewertung umfasst, kann sowohl komplex als auch teuer sein. LLMs zeichnen sich jedoch in diesem Bereich aus. Es hat sich gezeigt, dass die KI-basierte Bewertung qualitativ der von menschlichen Experten entspricht (Koenig et al., 2023; Thompson et al., 2023, König & Langer, 2022).
Diagnostisches Material
Die Erstellung von Inhalten für Diagnosetools ist ein Bereich, in dem sich LLMs schnell als nützlich erwiesen haben. LLMs zeichnen sich durch die Analyse und Erstellung von Sprache aus und eignen sich daher ideal für die Erstellung von Elementen für Fragebögen, Szenarien für SJTs, BARS (Behavioral Anchored Rating Scales) und strukturierten Interviewfragen (Götz et al., 2023).
Bewertung von Biographischen Daten
Auswertung der Biodaten der Bewerber: LLMs können damit beauftragt werden, relevante Informationen aus Lebensläufen zu extrahieren, beispielsweise Lizenzen, formale Qualifikationen oder Erfahrungen.
Job-Analyse
Der Großteil der Informationen zu Arbeitsinhalten und Anforderungen erfolgt in schriftlicher Form. Um Jobfamilien auf Ähnlichkeit zu gruppieren, können LLMs verwendet werden (Lewis et al., 2023), um die relevanten KSAOs aus Jobbeschreibungen zu extrahieren.
Identifizieren von Mustern in großen Datensätzen
Psychologen arbeiten häufig mit großen Datensätzen schriftlicher Informationen, wie beispielsweise Berichten aus psychologischen Gutachten, Interviewprotokollen und Bewertungen von Vorgesetzten. Das Erkennen von Mustern in dieser Art von Daten kann eine Herausforderung sein, aber LLMs können helfen, indem sie Muster in großen Mengen von Textdateien identifizieren.
Big Data
Die Beurteilung von Personen auf der Grundlage verhaltensbezogener Big Data wird am Arbeitsplatz immer häufiger eingesetzt. Da die meisten ihrer Aktivitäten online stattfinden, generieren Mitarbeiter eine erhebliche Menge an Verhaltensdaten. Diese Daten werden derzeit verwendet, um die Leistung der Mitarbeiter zu verfolgen, beispielsweise um die Anzahl der von Callcenter-Agenten entgegengenommenen Anrufe zu messen. Es kann aber auch dazu genutzt werden, die Fähigkeiten, die Persönlichkeit und die Kompetenzen der Mitarbeiter sowie ihre sozialen Interaktionen und Entscheidungsfähigkeiten zu bewerten. KI-Algorithmen können große Datenmengen analysieren, um Entwicklungsbereiche, potenzielle Karrierewege oder sogar Diskrepanzen zwischen Person und Beruf zu identifizieren.
Erstellen von Arbeitshypothesen über Einzelpersonen
Der Autor arbeitet als Berater und führt individuelle psychologische Assessments mit Führungskräften durch. Dadurch wird eine beträchtliche Menge an Daten zu jeder Person generiert, darunter Testdaten wie Persönlichkeit und GMA, Interviewtranskripte und Transkripte von Simulationsübungen wie Rollenspielen oder Fallstudien. Ein lokal geführtes LLM wird mit den notwendigen Daten und Stellenanforderungen gefüttert, um die wichtigsten Stärken und Schwächen eines Kandidaten zusammenzufassen. Beispielsweise erstellte Mistral7B die folgende Zusammenfassung für einen Nachwuchsmanager, basierend auf einer Textdatei, die die verbalen Ergebnisse verschiedener psychometrischer Tests sowie ein Interviewprotokoll enthielt: „Basierend auf den Ergebnissen von A. aus psychometrischen Tests, Übungen und Interviews scheint sie eine analytische und detailorientierte Person mit starken Führungsqualitäten zu sein. Sie ist in der Lage, kritisch zu denken, Probleme effektiv zu lösen und arbeitet gut im Team. Ihre positive Einstellung und ihre Bereitschaft zur Zusammenarbeit machen sie zu einer wertvollen Bereicherung für jede Organisation. Allerdings fällt es ihr möglicherweise schwer, Aufgaben zu delegieren, und sie kann manchmal mit den Arbeitsanforderungen überfordert sein, wenn sie nicht richtig gemanagt wird. Für sie ist es wichtig, ihre starke Arbeitsmoral mit Selbstfürsorgepraktiken in Einklang zu bringen, um Burnout zu vermeiden. Insgesamt hat A. das Potenzial, ein erfolgreicher Manager und Leader mit Weiterbildung und Erfahrung im Management komplexer Projekte und großer Teams zu sein.“
Erstellen von narrativen Feedbackberichten
Testanbieter können LLMs nutzen, um aus psychometrischen Testergebnissen individualisierte narrative Berichte zu erstellen (Koenig et al., 2023). Im Rahmen von Entwicklungsbewertungen könnten LLMs Psychologen dabei unterstützen, auf der Grundlage der Ergebnisse der Bewertung individuelle Entwicklungsempfehlungen vorzuschlagen.
Ethische und praktische Überlegungen zum Einsatz von KI zur Auswahl und Assessments
Ethische Möglichkeiten
Über die offensichtlichen Vorteile des Einsatzes von KI für die Personalauswahl und -beurteilung hinaus (Effizienz, Geschwindigkeit, geringere Kosten, bessere Auswahlqualität) gibt es auch ethische Chancen beim Einsatz von KI für Personalbeurteilungs- und -auswahlzwecke (Hunkenschroer & Luetge 2022):
Reduzierte Vorurteile
Ein richtig konzipiertes KI-System kann menschliche Vorurteile reduzieren. Natürlich werden menschliche Einstellungs- und Beförderungsentscheidungen von Vorurteilen, persönlichen Vorlieben und Emotionen beeinflusst, während ein gut entwickeltes KI-System objektiv ist und Einstellungsentscheidungen nur auf der Grundlage gültiger Daten trifft.
Konsistenz des Prozesses für Bewerber
KI-gestützte Systeme bieten den Bewerbern einen durchgängigen Rekrutierungsprozess und führen sie durch die einzelnen Schritte des Rekrutierungsprozesses von der ersten Information zur Stelle, der Beantwortung von Fragen zum Unternehmen und der Stelle, der Beurteilung bis hin zur Präsentation des Stellenangebots.
Zeitnahes Feedback
Häufig erfolgt eine Rückmeldung zu einem Beurteilungsprozess erst, nachdem der HR-Mitarbeiter oder Psychologe seinen Beurteilungsbericht verfasst hat. Die automatisierte Erstellung eines narrativen Bewertungsberichts gibt den Bewerbern zeitnahes Feedback zu ihren Ergebnissen.
Job Enrichment
Das Entfernen der menschlichen Interaktion aus dem Rekrutierungsprozess führt zu Effizienzgewinnen (Lee, 2018; van Esch & Black, 2019) und ermöglicht es Psychologen und HR-Mitarbeitenden, sich auf die Aspekte ihrer Arbeit zu konzentrieren, die menschliche Interaktion beinhalten (z. B. Coaching). Zu diesem Zweck bieten KI-Systeme Möglichkeiten zum Job Enrichment für HR Mitarbeiter und Psychologen (Ore & Sposato, 2022).
Einwilligung der Kandidaten
Mirowska (2020) berichtete, dass Kandidaten für ihre Bewertungen menschliche Bewerter gegenüber KI bevorzugen. Der Einsatz von KI in Auswahlprozessen wirft ethische Fragen zur Transparenz für Organisationen und IO-Psychologen auf. Es ist wichtig, zwischen absichtlicher und unbeabsichtigter Datenerfassung zu unterscheiden. Bei der Beantwortung von Punkten in einem Persönlichkeitsfragebogen wird davon ausgegangen, dass ein Kandidat der Auswertung seiner Antworten durch eine Technologie, einschließlich eines KI-Algorithmus, zugestimmt hat. Online-Verhalten von Mitarbeitern, wie etwa Mausklicks und die Dauer der Interaktion mit anderen, gelten jedoch als unbeabsichtigte Daten, für deren Auswertung die Zustimmung des Mitarbeiters erforderlich ist. Dies steht im Einklang mit den ethischen Richtlinien der APA, auch wenn die Daten für pro-soziale Maßnahmen verwendet werden, beispielsweise um individuelle Entwicklungsvorschläge anzubieten.
Wie von Tippins et al. (2021) sollte ein professioneller und rechtlicher Standard definiert werden, um Menschen zu informieren, wenn sie mit einer KI statt mit einem Menschen interagieren. Es ist wichtig zu beachten, dass LLMs den Turing-Test mittlerweile problemlos bestehen können (Mei et al., 2024), was bedeutet, dass Probanden nach einem langen Gespräch nicht zwischen einer KI und einem Menschen unterscheiden können. Daher ist es von entscheidender Bedeutung, klare Richtlinien für die Interaktion zwischen KI und Mensch festzulegen.
Datenqualität
KI-Ansätze basieren darauf, das System mit vorhandenen Daten zu trainieren. Das System kann eine große Anzahl potenzieller Prädiktoren wie Testergebnisse, Interviewprotokolle, Verhalten und Bewertungen im Assessment Center sowie Biodaten nutzen, um Muster zu finden, die eine erfolgreiche Einstellung vorhersagen. Es ist wichtig, jedes Thema mit einem Kriterium zu versehen, das „Erfolg“ anzeigt. Zu diesem Kriterium können quantitative Daten gehören, etwa Verkaufszahlen oder Bewertungen von Vorgesetzten nach der Einstellung, aber auch historische Entscheidungen, etwa ob ein Kandidat eingestellt wurde oder nicht. Es ist wichtig zu beachten, dass sich alle potenziellen Kriterien auf historische Daten beziehen und daher verzerrt oder veraltet sein können. Exemplarisch analysierte der Autor eine große Datenbank mit psychometrischen, soziografischen und biografischen Daten von 2.000 deutschen Top-Managern, die sich zu Auswahlzwecken einem individuellen psychologischen Assessment unterzogen hatten. Das System identifizierte die folgenden Merkmale erfolgreicher Kandidaten, die eingestellt wurden: Sie sollten einen Master-Abschluss oder einen Doktortitel besitzen. in Wirtschafts- oder Ingenieurwissenschaften; Die Person sollte zwischen 45 und 55 Jahre alt sein und über überdurchschnittliche kognitive Fähigkeiten verfügen, wie aus Testergebnissen hervorgeht. Von der Persönlichkeit her sollten sie extravertiert und hochmotiviert zu Höchstleistungen sein.
Wenn dieses System zur Vorauswahl von Kandidaten verwendet würde, könnte es potenziell erfolgreiche Kandidaten identifizieren, aber aufgrund der Abhängigkeit von voreingenommenen Daten auch bestimmte Gruppen ausschließen. Es ist wichtig zu beachten, dass der Datensatz keine Informationen zur Hautfarbe erfasste. Wenn dies jedoch der Fall gewesen wäre, wäre „weiß“ möglicherweise einer der Prädiktoren für eine erfolgreiche Einstellung gewesen, ähnlich wie das Kriterium „männlich“ – beide Merkmal spiegeln die vorhandenen Biases in den historischen Daten wieder. Der Einsatz eines solchen Systems in der realen Personalauswahl würde gegen ethische und rechtliche Grundsätze der Fairness verstoßen. Beispielsweise schreibt die europäische Datenschutz-Grundverordnung (DSGVO) vor, dass Algorithmen unabhängig von Variablen wie Geschlecht, Sexualität, Religion oder deren Stellvertretern (z. B. Adresse oder Porträtbild) sein müssen.
Veränderungen in der Umgebung können Auswirkungen auf die Datenqualität haben. KI-Systeme werden in der Regel auf historischen Daten trainiert, was ihren Anwendungsbereich auf die Vergangenheit beschränkt. Als beispielsweise ChatGPT im Dezember 2022 der Öffentlichkeit zugänglich gemacht wurde, gab OpenAI bekannt, dass es bis September 2021 auf Internetdaten trainiert wurde. Beim Training eines KI-Systems für die Bewertung und Auswahl stützt es sich auf frühere Daten. KI-Modelle, die für die Personalauswahl verwendet werden, sind aufgrund der hohen Kosten und Datenanforderungen der Umschulung möglicherweise nicht immer auf dem neuesten Stand. Dieses Problem betrifft nicht nur die KI, da sich die Vorhersagekraft bestimmter psychologischer Dimensionen mit Veränderungen im Arbeitsumfeld ändern kann, beispielsweise mit der Verlagerung auf Remote Work während der Pandemie. Während IO-Psychologen sich der Veränderungen in der Arbeitsumgebung bewusst sind und ihre Annahmen über die Gültigkeit ihrer Prädiktoren verfeinern, kann ein KI-System nur dann umgeschult werden, wenn genügend Daten für eine erneute Stichprobe vorhanden sind.
Vorurteile erkennen und beseitigen
KI-Systeme enthalten häufig Vorurteile, wie Schwartz et al. feststellten. (2022). Mehrabi (2022) bietet Beispiele aus der Praxis für voreingenommene Systeme und einen Überblick über 19 verschiedene Arten von Voreingenommenheiten in KI-Systemen. Es ist eine ethische und rechtliche Verpflichtung, Vorurteile in KI-Systemen zu erkennen und zu beseitigen. Avgustin (2022) beschreibt mehrere statistische Methoden zur Bewertung der diskriminierenden Voreingenommenheit eines KI-Systems. Mihaljević (2023) diskutiert die Einführung von Maßstäben für Fairness und schlägt vor, sich mehr auf das Ergebnis (Statistik) als auf den Prozess (Algorithmus) zu konzentrieren. Verma et al. (2021) schlagen eine neuartige Black-Box-Methodik zur Verbesserung der Fairness in Modellen des maschinellen Lernens durch die Identifizierung und Entfernung verzerrter Trainingsdaten vor. Dieser Ansatz reduziert die individuelle Diskriminierung erheblich, oft auf 0 %, und verbessert sowohl die Genauigkeit als auch die Fairness der Modelle im Vergleich zu Modellen, die auf dem gesamten Datensatz trainiert wurden.
Treffen der Einstellungsentscheidung
KI übernimmt zunehmend Aufgaben im Rekrutierungs- und Auswahlprozess, wobei die endgültige Entscheidung typischerweise von einem menschlichen Personalvermittler oder Manager getroffen wird (Fernández-Martínez & Fernández, 2020; Yarger et al., 2020). Einige Organisationen haben sich aufgrund des Drucks, den Rekrutierungsprozess so schnell und kostengünstig wie möglich zu gestalten, der vollautomatischen Entscheidungsfindung zugewandt (Lee, 2018; Vasconcelos et al., 2018).
Wie Hmoud & Laszlo (2019) schreiben, wird sich KI zwar zunehmend auf die Personalrekrutierung und -auswahl auswirken, es ist jedoch unwahrscheinlich, dass sie menschliche Personalvermittler vollständig ersetzen wird. Dies unterstreicht die Bedeutung einer durchdachten Integration von KI, um die menschliche Entscheidungsfindung in HR-Prozessen zu unterstützen und nicht zu ersetzen . Rezzani (2020) fasst zusammen: „… die Ersetzung des Menschen im Prozess der Forschung und Auswahl erscheint sinnvoll, wird jedoch nicht durch Daten in der Literatur gestützt.“ Sie kommen zu dem Schluss: „…es besteht Einigkeit darüber, dass KI-Tools das Potenzial haben, menschliche Arbeit zu unterstützen und nicht zu ersetzen.“
Cecil et al. (2023) stellen fest, dass Einzelpersonen (d. h. Entscheidungsträger) dazu neigen, den Ratschlägen eines KI-Systems bei der Personalauswahl zu folgen, auch wenn die Ratschläge falsch sind. Dies führt zu einer schlechteren Entscheidungsqualität, als wenn sie überhaupt keine Beratung erhalten hätten. Kupfer et al. (2023) beschreiben, dass die bloße Sensibilisierung von Entscheidungsträgern für ihre Verantwortung ihre Entscheidungsqualität nicht verbessert. Allerdings kann die Art und Weise, wie die Daten präsentiert werden, Auswirkungen haben. Laut Langer et al. (2021) sollte eine KI-Unterstützung bei der Personalauswahl erfolgen, nachdem Entscheidungsträger die Kandidaten selbst bewertet haben.
Rechtliche Überlegungen zum Einsatz von KI zur Auswahl und Bewertung
Aufgrund der rasanten Entwicklung von KI in den letzten Jahren hinkt die Gesetzgebung hinter den technologischen Entwicklungen und der weiten Verbreitung von KI und LLM hinterher. Dies gilt insbesondere für die USA, wo die Rechtslandschaft rund um den Einsatz von KI zur Auswahl und Bewertung komplex ist und je nach Gerichtsbarkeit variiert. Es ist jedoch wichtig zu beachten, dass die bestehende Auswahlgesetzgebung auch für den Einsatz von KI gilt. Beispielsweise verbieten der Civil Rights Act, der Americans with Disabilities Act (ADA) und der Age Discrimination in Employment Act (ADEA) Diskriminierung aufgrund geschützter Merkmale wie Rasse, Geschlecht, Alter und Behinderung. In den Vereinigten Staaten regelt der California Consumer Privacy Act (CCPA) die Verarbeitung personenbezogener Daten und orientiert sich stark an der europäischen Datenschutz-Grundverordnung (DSGVO). Diese Gesetze gewähren Einzelpersonen bestimmte Rechte an ihren Daten, beispielsweise das Recht auf Auskunft über die Verwendung ihrer Daten und das Recht auf Löschung ihrer Daten.
Das KI-Gesetz der Europäischen Union (Europäisches Parlament, 2023) ist eines der ersten spezifischen Gesetze, das sich mit den Herausforderungen des Einsatzes von KI befasst. Ähnlich wie die Datenschutz-Grundverordnung dürfte dieses Gesetz als Blaupause für die Gesetzgebung in den USA dienen. Das KI-Gesetz kategorisiert KI-Systeme in verschiedene „Risikokategorien“. KI-Systeme, die für die Rekrutierung oder Auswahl von Personen konzipiert sind, insbesondere für die Ausschreibung von Stellenangeboten, das Screening oder Filtern von Bewerbungen und die Bewertung von Kandidaten in Vorstellungsgesprächen oder Tests, gelten als „Systeme mit hohem Risiko“. Daher müssen Anbieter von KI-Systemen ein Risikomanagementsystem einrichten (Art. 9), eine ordnungsgemäße Datenverwaltung sicherstellen (einschließlich Schulungs-, Validierungs- und Testdatensätze, Art. 10) und den Nutzern von KI-Systemen Transparenz und Informationen bieten (Art. 13). ) und stellen die menschliche Aufsicht während der Nutzung sicher (Art. 14). In Zukunft könnte es nicht nur in der Europäischen Union illegal sein, Einstellungs- und Beurteilungsentscheidungen vollständig an einen KI-Algorithmus zu delegieren (Sánchez-Monedero et al., 2020).
Die Rolle von Psychologen bei der Anwendung von AI-Tools für die Personalauswahl und -beurteilung
KI-Systeme werden teilweise Aufgaben übernehmen, die traditionell von IO-Psychologen erledigt werden. Daher sollten Psychologen für die Entwicklung und Umsetzung von Richtlinien für den Einsatz von KI-Systemen verantwortlich sein. Psychologen sind nicht nur Experten für die Beurteilung und Auswahl von Menschen, sondern haben auch ein besseres Verständnis für die Natur der zugrunde liegenden Algorithmen der KI als viele andere Berufe. Die meisten Psychologen sind in Konzepten wie neuronalen Netzen, prädiktiven Analysen und stochastischen Methoden ausgebildet. Daher können sie Computeringenieure beim Entwurf und der Prüfung von KI-Systemen unterstützen.
Psychologen sollten eine aktive Rolle bei der Gestaltung staatlicher und gesetzlicher Regelungen in Bezug auf KI bei der Auswahl und Bewertung auf kollektiver Ebene übernehmen. Sie sollten sich für die Festlegung von Normen für die Entwicklung, Prüfung und Anwendung von KI-Systemen im Einstellungs-, Beförderungs- und Beurteilungsprozess einsetzen. Das Fehlen einer Regulierung kann zu unethischem Verhalten von Organisationen führen, was zu negativen Reaktionen seitens der Öffentlichkeit und des Gesetzgebers führen könnte. Dies wiederum kann zu einer allgemein feindseligen Haltung gegenüber KI führen. Es ist wichtig, klare Regelungen zu schaffen, um solche Folgen zu verhindern.
Auf organisatorischer Ebene ist es wichtig, Standards für den ethischen Einsatz von KI umzusetzen. Dazu gehört die Einhaltung bestehender Datenschutzgesetze und die Bereitstellung von Transparenz für Bewerber und Manager hinsichtlich des Bewertungsprozesses und der Rolle von KI. Entscheidend ist, dass es klare Regeln gibt, die die menschliche Kontrolle gewährleisten, was bedeutet, dass Entscheidungen letztendlich von Menschen und nicht von Algorithmen getroffen werden sollten. Psychologen sollten sich auch dafür einsetzen, dass vielfältige Stimmen in die Festlegung von KI-Standards innerhalb der Organisation einbezogen werden.
Zukünftige Entwicklungen
KI-Systeme bieten faszinierende Möglichkeiten für die Beurteilung und Auswahl von Kandidaten. Während einige Tools ausschließlich auf der Fähigkeit des Systems zur Analyse großer Datenmengen basieren, führen andere, insbesondere solche, die auf Deep Learning basieren, wie z. B. LLMs, völlig neue Methoden zur Bewertung von Personen ein. Diese neuartigen Ansätze werden unweigerlich zu neuen rechtlichen und ethischen Problemen führen.
Derzeit zeichnen sich drei technologische Entwicklungen ab oder sind bereits im Einsatz, die neue Möglichkeiten sowie ethische und rechtliche Herausforderungen für IO-Psychologen mit sich bringen werden.
Multimodalität
Ein Vorteil von GPT4 von OpenAI gegenüber GPT3 ist seine Multimodalität. Es kann nicht nur mit geschriebener Sprache, sondern auch mit gesprochener Sprache, Audiodaten (einschließlich Musik), Bildern und Videos arbeiten. GPT4 und Googles LLM „Gemini“ (kürzlich in „Gamma“ umbenannt) sind für die Verwendung dieser verschiedenen Datenmodalitäten vorab trainiert. Folglich könnten LLMs der nächsten Generation Personen nicht nur anhand ihrer Sprache, sondern auch anhand ihrer Körpersprache, Gesichtsausdrücke und ihres nonverbalen Verhaltens beurteilen. Während Psychologen erkennen, dass die Beurteilung von Personen anhand dieser Aspekte tiefere Einblicke in ihre Persönlichkeit ermöglichen kann, kann sie auch irreführend sein, da nonverbales Verhalten weniger zuverlässig ist als gesprochene oder geschriebene Sprache.
Große Context Windows
Derzeit entwickeln einige KI-Unternehmen, wie beispielsweise Google im Jahr 2024, LLMs mit einem großen Context Window. Das Context Window ist vergleichbar mit dem Arbeitsspeicher von Computern und Menschen, also der Datenmenge, die ein System oder ein Mensch verarbeiten kann. Während GP3 ein Kontextfenster von 4.096 Tokens hatte (ein Token wird allgemein als Wort oder eine andere Information definiert), ist die Größe des Kontextfensters von GP4 auf 8.192 Tokens gestiegen. Gemini (Google, 2024) hat ein Kontextfenster von 32.000 Token. Google strebt die Entwicklung eines LLM mit einer Kontextfenstergröße von 1 bis 10 Millionen Token an und schon heute werden einige der Open Source Modelle so modifiziert, dass sehr große Context Windows haben.
Das bedeutet, dass LLMs der nächsten Generation möglicherweise alle verfügbaren Daten einer Person in ihrem Arbeitsgedächtnis speichern könnten, einschließlich Beschäftigungsverlauf, psychometrische Daten und digitaler Fußabdruck, die im Wesentlichen das gesamte Leben einer Person repräsentieren. Auch wenn dieser Ansatz für Psychologen interessante Möglichkeiten bietet, beinhaltet er doch die Bewertung des „Willens“ und nicht des „Könnens“ der Kandidaten, was typischerweise das Ergebnis psychologischer Beurteilungen ist. Der Einsatz solcher Modelle wirft jedoch zahlreiche ethische Bedenken auf.
LLMs wird neben dem schnellen Denken auch das langsame Denken beigebracht
LLMs sind darauf ausgelegt, menschliche Sprachverarbeitungs- und Problemlösungsfähigkeiten nachzuahmen. Wenn ihnen Fragen gestellt werden, agieren sie ausschließlich im „schnellen“ Denkmodus, wie von Kahneman (2011) beschrieben. Dazu gehört das Analysieren der Frage, die Bewertung anhand ihres vorab trainierten Modells und die Bereitstellung einer Antwort auf der Grundlage der riesigen Mengen an Internetdaten, auf denen sie trainiert wurden. Die Antwort erfolgt prompt und ihre Qualität ist direkt proportional zur Qualität der Daten, die zum Training des LLM verwendet werden. Dies ähnelt Kahnemans Fast Thinking.
Zukünftig könnten LLM-Studenten in der Lage sein, sich dem „Langsamen Denken“ zu widmen, was eine tiefergehende Datenanalyse, das Abwägen der Vor- und Nachteile, die Berücksichtigung von Minderheitenmeinungen und die Nutzung von Was-wäre-wenn-Szenarien beinhaltet. Ein LLM, der länger braucht, um Informationen zu verarbeiten, könnte ein wertvoller Partner für einen IO-Psychologen sein, beispielsweise um die Ergebnisse eines psychologischen Assessments für eine Top-Management-Position zu besprechen. Dieser Prozess erfordert eine sorgfältige Abwägung der Person, der Position und der potenziellen Risiken jeder Empfehlung. Hier könnte ein LLM einen zweiten Psychologen ersetzen, mit dem der Gutachter ein Gespräch über den Kandidaten führt.
Large Spatial Models
Durch das Aufkommen von Wearables (Smartwatches, aber auch VR-Brillen) sind immer mehr Daten über Bewegungen und Interaktionen von Menschen für die Hersteller dieser Geräte verfügbar. Ähnlich wie die Large Language Models durch die Tokenisierung (d.h. die Umwandlung von Sätzen in Vektoren von Zahlen) in der Lage sind, Sprache zu verstehen und vorherzusagen, wird es mit genügend Verhaltensdaten möglich sein, Bewegungen zu tokenisieren und Verhalten auf der Basis von Verhalten vorherzusagen. Für Psychologen bedeutet dass, dass psychologische Diagnostik neu gedacht werden muss, denn in diesem Fall benötigen wir keine psychologischen Konstrukte (wie „Extraversion“ oder „Gewissenhaftigkeit“) mehr um Aussagen über Eignung und Passung von Bewerbern zu machen, sondern kann direkt aus den vorhandenen Daten eine valide Prognose machen, wie sich ein Mensch zukünftig verhalten wird.
Literatur
Avgustin, V. (2022). Evaluating Discrimination Bias In AI Decision Making Systems For Personnel Selection (Doctoral dissertation, Dublin, National College of Ireland).
Boyd, R. L., Ashokkumar, A., Seraj, S., & Pennebaker, J. W. (2022). The development and psychometric properties of LIWC-22. Austin, TX: University of Texas at Austin, 1-47.
Cecil, J., Lermer, E., Hudecek, M. F. C., Sauer, J., & Gaube, S. (2023, March 20). The Effect of AI-generated Advice on Decision-Making in Personnel Selection. https://doi.org/10.31219/osf.io/349xe
Davis, R., & King, J. J. (1984). The origin of rule-based systems in AI. Rule-based expert systems: The MYCIN experiments of the Stanford Heuristic Programming Project.
European Parliament (2023). EU AI Act: first regulation on artificial intelligence. Online: https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence
Fernández-Martínez, C., & Fernández, A. (2020). AI and recruiting software: Ethical and legal implications. Paladyn: Journal of Behavioral Robotics, 11, 199–216. https://doi.org/10.1515/ pjbr-2020-0030
Götz, F. M., Maertens, R., Loomba, S., & van der Linden, S. (2023). Let the algorithm speak: How to use neural networks for automatic item generation in psychological scale development. Psychological Methods.
Goretzko, D. & Israel, L.S.F (2022): Pitfalls of Machine Learning-Based Personnel Selection. Journal of Personnel Psychology, 21(1), 37–47.
Google (2024): What is a long context window? Online: https://blog.google/technology/ai/long-context-window-ai-models/
Hmoud, B., & Laszlo, V. (2019). Will artificial intelligence take over human resources recruitment and selection. Network Intelligence Studies, 7(13), 21-30.
Hooper, R. S., Galvin, T. P., Kilmer, R. A., & Liebowitz, J. (1998). Use of an expert system in a personnel selection process. Expert systems with Applications, 14(4), 425-432.
Hunkenschroer, A. L., & Luetge, C. (2022). Ethics of AI-enabled recruiting and selection: A review and research agenda. Journal of Business Ethics, 178(4), 977-1007.
Kahneman. (2011). Thinking, Fast and Slow. New York, NY: Farrar, Straus and Giroux.
Koenig, N., Tonidandel, S., Thompson, I., Albritton, B., Koohifar, F., Yankov, G., … & Newton, C. (2023). Improving measurement and prediction in personnel selection through the application of machine learning. Personnel Psychology, 76(4), 1061-1123.
Lee, M. K. (2018). Understanding perception of algorithmic decisions: Fairness, trust, and emotion in response to algorithmic management. Big Data & Society. https://doi.org/10.1177/2053951718 756684
Liu, M. Q. (2023a). Applying Natural Language Processing to Assessment. Talent Assessment: Embracing Innovation and Mitigating Risk in the Digital Age, 66.
Liu, M. Q., McNeney, D., Capman, J., Lowery, S., Kitching, M., Nimbkar, A., & Boyce, T. (2023b). Developing and validating automated scoring for an audio constructed response simulation.
König, C. J., & Langer, M. (2022). Machine learning in personnel selection. Handbook of Research on Artificial Intelligence in Human Resource Management, 149-167.
Kupfer, C., Prassl, R., Fleiß, J., Malin, C., Thalmann, S., & Kubicek, B. (2023). Check the box! How to deal with automation bias in AI-based personnel selection. Frontiers in Psychology, 14, 1118723.
Langer, M., König, C. J., & Busch, V. (2021). Changing the means of managerial work: effects of automated decision support systems on personnel selection tasks. Journal of business and psychology, 36, 751-769.
Lee, M. K. (2018). Understanding perception of algorithmic decisions: Fairness, trust, and emotion in response to algorithmic manage- ment. Big Data & Society. https://doi.org/10.1177/2053951718 756684
Lewis, J. A., Morris, J., & Lewis, P. (2023). Developing Career Word Clouds for the O* NET System. https://www.onetcenter.org/dl_files/WordClouds.pdf
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM computing surveys (CSUR), 54(6), 1-35.
Mei, Q., Xie, Y., Yuan, W., & Jackson, M. O. (2024). A Turing test of whether AI chatbots are behaviorally similar to humans. Proceedings of the National Academy of Sciences, 121(9), e2313925121.
Mihaljević, H., Müller, I., Dill, K., Yollu-Tok, A., & von Grafenstein, M. (2023). More or less discrimination? Practical feasibility of fairness auditing of technologies for personnel selection. AI & SOCIETY, 1-17.
Mirowska, A. (2020). AI evaluation in selection: Effects on application and pursuit intentions. Journal of Personnel Psychology, 19(3), 142.
Ore, O., & Sposato, M. (2022). Opportunities and risks of artificial intelligence in recruitment and selection. International Journal of Organizational Analysis, 30(6), 1771-1782.
Pellert, M., Lechner, C. M., Wagner, C., Rammstedt, B., & Strohmaier, M. (2023). AI Psychometrics: Assessing the psychological profiles of large language models through psychometric inventories. Perspectives on Psychological Science, 17456916231214460.
Rezzani, A., Caputo, A., & Cortese, C. G. (2020). An analysis of the literature about the application of Artificial Intelligence to the Recruitment and Personnel Selection. BOLLETTINO DI PSICOLOGIA APPLICATA, 25-33.
Sánchez-Monedero, J., Dencik, L., & Edwards, L. (2020). What does it mean to ‘solve’ the problem of discrimination in hiring? Social, technical and legal perspectives from the UK on automated hiring systems. In Conference on Fairness, Accountability, and Transparency, Barcelona, Spain, January 27–30 (pp. 458–468). New York: Association for Computing Machinery. https://doi. org/10.1145/3351095.3372849.
Schwartz, R., Vassilev, A., Greene, K., Perine, L., Burt, A., & Hall, P. (2022). Towards a standard for identifying and managing bias in artificial intelligence. NIST special publication, 1270(10), 6028.
Tews, M. J., Stafford, K., & Tracey, J. B. (2011). What matters most? The perceived importance of ability and personality for hiring decisions. Cornell Hospitality Quarterly, 52(2), 94-101.
Tippins, N. T., Oswald, F. L., & McPhail, S. M. (2021). Scientific, legal, and ethical concerns about AI-based personnel selection tools: a call to action. Personnel Assessment and Decisions, 7(2), 1.
Thompson, I., Koenig, N. Mracek, D.L., Tonidandel, S. (2023). Deep learning in employee selection: Evaluation of algorithms to automate the scoring of open-ended assessments. Journal of Business Psychology, 38(3), 509-527. https://link.springer.com/article/10.1007/s10869-023-09874-y
van Esch, P., & Black, J. S. (2019). Factors that influence new generation candidates to engage with and complete digital, AI-enabled recruiting. Business Horizons, 62, 729–739. https://doi.org/10. 1016/j.bushor.2019.07.004
Varoquaux, G., Cheplygina, V. (2022) Machine learning for medical imaging: methodological failures and recommendations for the future. npj Digit. Med. 5, 48
Vasconcelos, M., Cardonha, C., & Gonçalves, B. (2018). Modeling epistemological principles for bias mitigation in AI systems: An illustration in hiring decisions. In J. Furman, G. Marchant, H. Price, & F. Rossi (Eds.), AAAI/ACM Conference on AI, Eth- ics, and Society, New Orleans, LA, USA, February 2–3 (pp. 323–329). New York: ACM. https://doi.org/10.1145/3278721. 3278751.
Verma, S., Ernst, M., & Just, R. (2021). Removing biased data to improve fairness and accuracy. arXiv preprint arXiv:2102.03054.
Yarger, L., Cobb Payton, F., & Neupane, B. (2020). Algorithmic equity in the hiring of underrepresented IT job candidates. Online Information Review, 44, 383–395. https://doi.org/10.1108/ OIR-10-2018-0334
Zhang, S., Dong, L., Li, X., Zhang, S., Sun, X., Wang, S., … & Wang, G. (2023). Instruction tuning for large language models: A survey. arXiv preprint arXiv:2308.10792.