Die falsche Frage: Zur Neuarchitektur universitärer Prüfungsformate im Zeitalter generativer KI

Von Mark Spektor

Die Debatte über generative Künstliche Intelligenz und Prüfungen beginnt fast überall mit derselben Frage: Wie viel KI darf erlaubt sein? Nur zur Recherche? Für die Gliederung? Für sprachliche Überarbeitung, aber nicht den Haupttext?

Diese Frage ist die falsche.

Nicht weil sie unpraktisch wäre. Nicht weil die Sorgen dahinter illegitim wären. Sondern weil sie die eigentliche Entscheidung umgeht: Welche Kompetenz soll eine Prüfung überhaupt sichtbar machen – und unter welchen Bedingungen ist das noch möglich?

Foto: privat

Über den Autor

Mark Spektor ist wissenschaftlicher Mitarbeiter an der Universität Hamburg und der ZBW – Leibniz-Informationszentrum Wirtschaft. Er promoviert bei Prof. Dr. Marianne Saam und forscht zu Digitaler Ökonomie, Automatisierung und Innovation. Die im Text bezogenen Positionen geben seine persönliche Einschätzung wieder.

Erst wer diese zweite Frage beantwortet, kann sinnvoll über Werkzeuge und Formate sprechen. Wer umgekehrt beginnt, landet zwangsläufig in Formulierungen wie „KI zur Recherche ist erlaubt, aber das Schreiben muss selbstständig erfolgen“ – Regeln, die weder überprüfbar noch didaktisch belastbar sind und die meist nur versuchen, ein altes Prüfungsformat unter veränderten technischen Bedingungen zu konservieren.

Welche Kompetenz soll eine Prüfung überhaupt sichtbar machen – und unter welchen Bedingungen ist das noch möglich?

Dieser Beitrag entstand im Umfeld des WISO-Meetups Digital, Data and AI Literacy vom März 2026 und der daran anschließenden Diskussionen. Er versucht, die dort entwickelten Argumente zu einer strukturell belastbaren Position zu verdichten – eingebettet in die aktuelle B.A.-Prüfungsordnung der WiSo-Fakultät (2024), den Orientierungsrahmen der Universität Hamburg zum Umgang mit generativen KI-Systemen (Stand November 2025) und die Empfehlungen der WiSo für den Umgang mit gKI in Lehre und Prüfungen (2024). Der Ausgangspunkt sind dabei auch Erfahrungen aus zwei Einführungslehrveranstaltungen des Interdisziplinären Grundkurses (IGK 1 und IGK 2) im B.A.-Studiengang Sozialökonomie, in denen die Integration von KI in wissenschaftliches Arbeiten seit dem Wintersemester 2023/24 systematisch erprobt wird – dort, wo Grundannahmen über Lernen und Prüfen zuerst sichtbar unter Druck gerieten.

Wozu Prüfungen überhaupt? Zwei Funktionen, die auseinandertreten

Bevor irgendetwas über KI und Prüfungen sinnvoll gesagt werden kann, lohnt ein kurzer Schritt zurück zu einer Grundfrage der Bildungsökonomie.

Universitäre Prüfungen erfüllen zwei distinkte Funktionen.

Die erste ist Gatekeeping und Signaling. Prüfungen produzieren für den Arbeitsmarkt ein Signal – im Sinne von Michael Spence (1973): ein kostspieliges Signal, das latente, von außen nicht direkt beobachtbare Eigenschaften einer Person bezeugt. Kognitive Kapazität, analytische Belastbarkeit, Frustrationstoleranz. Ein Abschluss ist glaubwürdig als Signal, weil er sich nicht leicht imitieren lässt – weil man sich ihn erarbeiten muss.

Die zweite Funktion ist der Aufbau von Humankapital. Prüfungen erzwingen die echte Internalisierung von Konzepten, kalibrieren das analytische Raster im Kopf der Studierenden und steigern so reale Produktivität – nach Gary Becker (1975). Dieser Effekt entsteht im Kopf, nicht im Zeugnis. Er ist unabhängig vom Marktmechanismus.

Über Jahrzehnte koexistierten diese beiden Funktionen, weil die Produktionsbedingungen des akademischen Textes sie strukturell aneinanderkoppelten. Wer wochenlang ein Essay schrieb, baute dabei Humankapital auf und sendete gleichzeitig ein glaubwürdiges Signal. Beides lag im selben Artefakt.

Generative KI hat diese Kopplung zerstört.

Der Proxy-Kollaps

Die historische Grundannahme unbeaufsichtigter Prüfungsformate lautete: Das eingereichte Artefakt ist ein verlässlicher Stellvertreter für den zugrundeliegenden Denkprozess. Wer eine gute Hausarbeit abgab, hatte in der Regel gelesen, durchdrungen, strukturiert, argumentiert.

Dieser Proxy ist kollabiert.

Die Daten sprechen für sich. Laut der HEPI-Studierendenbefragung 2026 gaben 95 Prozent der Befragten an, KI-Tools zu nutzen – 94 Prozent berichten, diese bei benoteten Prüfungsleistungen eingesetzt zu haben. Das sind keine Ausreißer. Das ist die neue Normalität.

Die kognitive Leistung ist externalisierbar geworden. Die Hausarbeit hat im Zweifel wenig mit der Person zu tun, die den Upload-Button gedrückt hat.

Besonders aufschlussreich ist eine viel zitierte experimentelle Studie von Christian Terwiesch (Wharton School, 2023), der ChatGPT 3 durch ein finales MBA-Examen im Bereich Operations Management schickte. Das Ergebnis war ein solides B. Was daran so problematisch ist, ist nicht, dass die KI bestanden hat. Es ist, dass sie unauffällig bestanden hat – im sicheren Mittelfeld, das in einem Korrekturstapel schlicht nicht auffällt. Ein KI-generierter Text, der eine 2,3 erreicht, löst keinen Verdacht aus. Er geht durch.

Inzwischen hat die Entwicklung ChatGPT 3 weit hinter sich gelassen.

Die kognitive Leistung ist externalisierbar geworden. Das Artefakt – die eingereichte Hausarbeit – hat bei unbeaufsichtigten Formaten im Zweifel wenig mit der Person zu tun, die den Upload-Button gedrückt hat. Das ist kein moralisches Urteil. Es ist eine Feststellung über veränderte Produktionsbedingungen.

Das Signal ist zu billig geworden. Wenn ein 100-Euro-Schein für zehn Cent zu fälschen ist, bricht nicht die Moral ein – die Anreize verschieben sich. Das Währungssystem kollabiert.

Das Produktionsparadoxon: Wer mauert hier eigentlich?

Eine Analogie macht den Kern des Problems greifbar.

In der Ökonomie und Politikberatung geht es darum, plausible, konsistente und handlungsrelevante Aussagen über die Welt zu generieren. Das ist das invariante Ziel – unabhängig davon, welche Werkzeuge zur Verfügung stehen.

Bisher wurde in Prüfungen dieses Ziel dadurch operationalisiert, dass Studierende jeden Ziegelstein des akademischen Textes selbst mauern mussten. Syntax, Literatureinarbeitung, Gedankengang zu Papier bringen. Dieser Weg zum Ergebnis war der Test.

Nun gibt es Roboter, die außerordentlich gut mauern können. Nicht fehlerlos – sie halluzinieren gelegentlich schiefe Steine –, aber schnell, flüssig und meistens überzeugend.

Die Frage ist: Was erwartet die Gesellschaft eigentlich von WiSo-Absolventinnen und -Absolventen?

Niemand wird dafür bezahlt, Standardtexte manuell abzutippen. Die gesellschaftliche Wertschöpfung akademisch ausgebildeter Ökonominnen und Soziologen liegt woanders: in der Architekturplanung. Welches Haus soll gebaut werden? Für wen? Zu welchem Preis? Mit welchen Risiken? Und wer haftet für die Statik, wenn etwas schief geht?

Wenn unbeaufsichtigte Prüfungen weiterhin primär das manuelle Mauern testen, prüfen sie an dem vorbei, was Hochschulabsolventinnen und -absolventen tatsächlich leisten sollen. Das ist nicht nur ein didaktisches, sondern ein gesellschaftliches Problem.

Die Lösungsarchitektur: Funktionales Splitting

Die Konsequenz aus diesem Strukturwandel ist keine Kompromissformel, sondern eine strukturelle Weichenstellung auf Modulebene. Das Designprinzip lautet: Trenne das delegierbare Handwerk von der nicht-delegierbaren Haftung.

Daraus ergeben sich zwei klar unterscheidbare Prüfungstypen.

Typ A: Selektion und Kalibrierung

Das primäre Lernziel ist der Aufbau eines internen analytischen Kompasses. Mikro- und Makroökonomik, Statistik, Methoden, Argumentationslogik – all das, was Studierende in die Lage versetzt, KI-Output überhaupt sachkundig zu beurteilen. Wer nicht versteht, wie ein Regressionsmodell funktioniert, kann nicht erkennen, wenn das KI-generierte Ergebnis falsch kalibriert ist. Wer die Grundstruktur eines ökonomischen Arguments nicht verinnerlicht hat, wird eine überzeugend halluzinierte Policy-Empfehlung nicht als solche identifizieren.

Diese kognitive Basisleistung ist nicht delegierbar. Das Format in Typ A ist deshalb zwingend die beaufsichtigte Präsenz – Pen-and-Paper-Klausur oder mündliche Prüfung. Kein KI-Zugang. Nicht aus Nostalgie, sondern aus demselben Grund, aus dem Grundschulkinder keinen Taschenrechner mitbringen dürfen: damit das Gehirn ein intuitives Gefühl für Zahlenräume entwickeln kann, bevor die Maschine übernimmt.

Typ B: Maximierung und Output

Das Ziel ist hier nicht der eigenständige Textproduktionsprozess, sondern das bestmögliche sachliche Resultat: ein Policy-Memo, das handlungsrelevant ist; eine Seminararbeit, die den Forschungsstand präzise einordnet; eine Analyse, die Annahmen explizit macht und normative Abwägungen klar benennt. KI ist hier nicht nur erlaubt, sondern methodisch gefordert – denn die Frage, die geprüft wird, lautet: Besitzt die Person die epistemische Autorität über das Ergebnis?

In Typ B prüfen wir nicht die Textproduktion, sondern die Haftung. Wer KI nutzt und dabei Halluzinationen, logische Brüche oder fehlerhafte Kausalitätszuschreibungen übersieht, trägt dafür die volle akademische Verantwortung. Die Ausrede „Das hat die KI so geschrieben“ ist in Typ B das direkte Äquivalent zu „Ich habe die Quelle nicht gelesen, sondern nur das Abstract“. Beides führt zum Nicht-Bestehen – zu Recht.

Das Designprinzip lautet: Trenne das delegierbare Handwerk von der nicht-delegierbaren Haftung.

Zur Orientierung, welche Formate darunter fallen: Typ-A-Prüfungen sind etwa Klausuren in Grundlagenmodulen oder mündliche Methodenprüfungen. Typ-B-Prüfungen sind etwa KI-gestützte Policy-Memos, Take-Home-Exams in angewandten Seminaren oder forschungsnahe Abschlussarbeiten, in denen Deklaration der KI-Nutzung ausdrücklich Teil der Eigenständigkeitserklärung ist.

Diese Unterscheidung ist nicht neu. Die University of Sydney hat sie als Two-Lane-Policy institutionell implementiert – Secure Assessments für den Nachweis individueller Basiskompetenz, Open Assessments für realitätsnahe Leistungsnachweise mit KI. Oxford formuliert dasselbe als Fit-for-Purpose-Anforderung: Die Policy folgt aus dem Lernziel, nicht aus der Verfügbarkeit des Tools.

Kein Typ C – und was der Einwand des Lektüreseminars uns zeigt

An dieser Stelle ist ein Einwand zu adressieren, der im kollegialen Austausch präzise und konstruktiv formuliert wurde.

Ein Kollege aus einem textnahen Lehrformat – dem Lektüreseminar – brachte das Problem auf den Punkt: Ziel eines solchen Formats ist die selbstständige kritische Auseinandersetzung mit einer Argumentation. Sätze und Argumentationsketten in ihrer vorliegenden Form zerlegen – nicht zerlegen lassen. Wer dieses Format als Typ-A-Klausur durchführt, riskiert, bloße Textextraktion unter Zeitdruck zu prüfen, ähnlich einem GRE-Lesetest. Wer es als offenes Typ-B-Take-Home formuliert, entkoppelt genau die kognitive Auseinandersetzung, die eigentlich aufgebaut werden soll – weil die KI den Text dekonstruiert.

Das ist kein konstruiertes Problem. Es ist real.

„KI erlaubt, aber bitte nicht zum Denken?“ – Die Regel ist der Versuch, die klassische unbeaufsichtigte Hausarbeit als Institution zu retten, obwohl die Produktionsbedingungen sich fundamental verändert haben.

Der erste Impuls ist oft, dafür einen dritten Typus zu fordern: einen „Typ C“, in dem KI zwar genutzt werden darf, aber „bitte kritisch“ und „nur zur Orientierung“. Eine Art reflektierte Mischform, die beides irgendwie abdeckt.

Dieser dritte Weg ist eine didaktische Illusion.

Ein ungebundener Typ C – „KI erlaubt, aber bitte nicht zum Denken“ – führt unmittelbar zurück in die Grauzone, die den Proxy-Kollaps erst verursacht hat. Die Regel ist empirisch nicht überprüfbar. Sie ist der Versuch, die klassische unbeaufsichtigte Hausarbeit als Institution zu retten, obwohl die Produktionsbedingungen sich fundamental verändert haben. Formal anders etikettiert, strukturell identisch mit dem gescheiterten Status quo.

Wenn der Prüfungszweck binär sein muss – und das ist er, wenn Zurechenbarkeit gewahrt bleiben soll –, dann stehen genau zwei stabile Optionen zur Verfügung: Entweder ist die zu prüfende Kompetenz nicht delegierbar (dann ist das Format zwingend Typ A), oder es geht um Haftung für ein Endprodukt (dann ist das Format zwingend Typ B). Ein Typ C ist der Versuch, sich dieser Entscheidung zu entziehen.

Die eigentliche Frage, die hinter dem Lektüreseminar-Einwand steckt, ist jedoch eine andere: Gibt es Formate, die beides verlangen – kognitive Vorleistung isolieren und elaborierten Output produzieren? Ja. Und dafür gibt es eine präzise Antwort.

Das Sequentielle Modell: Wenn A und B hart gekoppelt werden (A → B)

Für Lehrformate wie das Lektüreseminar gibt es eine strukturell saubere Lösung, die weder auf einen fuzzy Typ C noch auf den Verzicht des Formats angewiesen ist: das Dual-Phase Assessment – ein zweistufiger Prüfungsvertrag mit harter Kopplung zwischen Phase A und Phase B.

Das Modell funktioniert so:

Phase 1 (In-Class, KI strikt verboten)

In einer beaufsichtigten Sitzung von 60 bis 90 Minuten wird die kognitive Vorleistung erzwungen und isoliert. Für ein Lektüreseminar bedeutet das: die eigene Textdekonstruktion, die Identifikation der zentralen These, das handschriftliche Aufspüren argumentativer Bruchstellen, die Formulierung eigener Gegenthesen oder eines kausalen Modells. Das Ergebnis dieser Phase – eine Skizze, Thesen, ein strukturierter Entwurf – wird prüfungsrechtlich fixiert. Es ist der Beweis, dass die kritische Auseinandersetzung mit dem Text tatsächlich stattgefunden hat.

Phase 2 (Take-Home, KI explizit gefordert)

Auf der Grundlage des in Phase 1 fixierten Artefakts erfolgt die Ausarbeitung. Die KI darf – und soll – dabei assistieren. Formulierungen schärfen, Struktur optimieren, Argumentationsketten verdichten.

Drei Bedingungen sind dabei nicht verhandelbar:

Die Sequenz. Phase 1 isoliert die kognitive Vorleistung. Ohne sie gibt es keine Phase 2. Die Reihenfolge ist unumkehrbar und lässt keinen Spielraum.
Hard Binding. Das Artefakt aus Phase 1 wird prüfungsrechtlich zum Referenzdokument für Phase 2. Phase 2 darf keinen grundlegend neuen Gedankengang einführen, sondern transformiert ausschließlich das, was in Phase 1 nachweisbar angelegt wurde. Die KI ist Werkzeug der Ausformulierung, nicht der Ideenproduktion.
Drittens: Haftung auf Konsistenz. In Phase 2 wird neben der inhaltlichen Qualität zwingend die logische Konsistenz mit Phase 1 bewertet – eine „Delta-Logik“. Wer in Phase 2 eine Argumentation einführt, die von den Prämissen aus Phase 1 abweicht, ohne das explizit zu deklarieren und methodisch zu begründen, produziert einen Widerspruch, der direkt in die Bewertung eingeht. Abweichungen ohne Deklaration führen zu harten Sanktionen.

Ohne diese absolute Zwangskopplung ist das Modell analytisch identisch mit den bestehenden Mischformen, die bereits als strukturell instabil identifiziert wurden. Mit ihr entsteht ein Format, das das Lektüreseminar sowohl vor dem bloßen Textextraktions-Test als auch vor der reinen KI-Kompetenz-Abfrage bewahrt – weil die eigentliche kognitive Leistung in Phase 1 isoliert, nachgewiesen und fixiert wird.

Wichtig: Das Dual-Phase Assessment ist kein eigenständiger dritter Typus, der parallel zu Typ A und Typ B existiert. Es ist der Mechanismus, durch den Typ-A-Kalibrierung und Typ-B-Output innerhalb eines einzigen Bewertungsrahmens verbunden werden – wenn das didaktische Ziel beides erfordert. Die Architektur bleibt binär. Die Sequenzierung macht das möglich.

Internationaler Konsens: Design schlägt Forensik

Der häufigste Reflex auf das beschriebene Problem ist der Ruf nach KI-Detektionssoftware. Turnitin, GPTZero – irgendetwas, das im Nachhinein sortiert, was „echtes Denken“ war und was nicht.

Die internationale Evidenz dazu ist eindeutig.

Integrität entsteht durch Prüfungsdesign – nicht durch forensische Algorithmen im Nachhinein.

Die Vanderbilt University hat Turnitins KI-Detektor deaktiviert und die Entscheidung explizit mit methodischen Mängeln begründet: mangelnde Transparenz, systematische Risiken für False Positives, dokumentierter Bias. Die University of Michigan rät ihren Lehrenden ausdrücklich von Detektionstools ab. Die University of Cambridge hält in ihren aktuellen Guidelines fest, dass keine Reliance auf Detection-Software erfolgen sollte.

Der technische Grund ist nicht trivial. Aktuelle Detektoren messen im Wesentlichen die Vorhersehbarkeit von Wortsequenzen. Was als KI-typisch klassifiziert wird, ist strukturell ähnlich dem, was sprachlich präzise, syntaktisch sauber und idiomatisch konsistent ist. Das sind Eigenschaften, die Nicht-Muttersprachlerinnen und -sprecher oft gezielt anstreben – weshalb ein systematischer Bias gegen internationale Studierende dokumentiert ist. An einer staatlichen Universität ist ein Prüfungsinstrument, das strukturell bestimmte Sprachbiografien benachteiligt, nicht vertretbar.

Der strukturelle Befund: Integrität entsteht durch Prüfungsdesign – nicht durch forensische Algorithmen im Nachhinein.

Fairness und die digitale Kluft

Ein Aspekt, der in der deutschen Hochschuldiskussion noch unterrepräsentiert ist: die Frage sozialer Gerechtigkeit.

Wenn unbeaufsichtigte Prüfungsformate generative KI weder explizit zulassen noch strukturell verhindern – also in der Grauzone verbleiben –, bewerten sie de facto etwas, das nicht im Kompetenzprofil steht: Zahlungsbereitschaft. Wer sich Premium-Modelle leisten kann, erzielt strukturell bessere Textergebnisse. An einer staatlichen Universität ist das kein akzeptabler Bewertungsmaßstab.

Die Konsequenz der hier beschriebenen Architektur ist zweigeteilt. Für Typ-A-Formate gilt: Die beaufsichtigte Präsenzprüfung ist der große Gleichmacher. Der technologische Vorteil wird auf null nivelliert. Dort zählt wieder der nackte Intellekt.

Für Typ-B-Formate gilt: Wenn die Fakultät erwartet, dass Studierende als kompetente KI-Nutzerinnen und -Nutzer arbeiten, muss sie einen institutionellen Baseline-Access sicherstellen. Das ist nicht optional. Der Orientierungsrahmen der UHH hält es explizit fest: Die Nutzung von gKI in Prüfungen kann nur dann verpflichtend sein, wenn datenschutzrechtlich gesicherte und kostenlose Alternativen zur Verfügung stehen. Das Präsidium ist dieser Anforderung mit der Freigabe von UHH-GPT nachgekommen. Die institutionelle Grundlage ist vorhanden. Sie muss konsequent genutzt werden.

Fairness bedeutet hier außerdem: klare Regeln, klare Kommunikation, keine impliziten Erwartungen. Studierende müssen vor Beginn einer Lehrveranstaltung wissen, in welcher Kategorie ihre Prüfung liegt und was das für den KI-Einsatz bedeutet. Der Orientierungsrahmen fordert das ausdrücklich.

Der Rahmen ist bereits vorhanden

Ein wichtiger Hinweis für die Praxis: Die hier beschriebene Architektur ist kein Vorschlag für eine neue Policy. Sie ist die konsequente Anwendung eines bereits bestehenden Rahmens.

Die Prüfungsordnung der WiSo-Fakultät (2024) erlaubt ein breites Spektrum an Prüfungsformen – Klausur, mündliche Prüfung, Hausarbeit, Take-Home Exam, elektronische Prüfung und Online-Prüfung – und überlässt die konkrete Ausgestaltung den Prüfenden beziehungsweise den Prüfungsausschüssen. Der in §13 beschriebene Baukasten trägt die hier vorgeschlagene Architektur ohne Anpassung. Die KI-spezifische Ausgestaltung erfolgt auf dieser Grundlage durch den Orientierungsrahmen der UHH und die WiSo-Empfehlungen.

Der Orientierungsrahmen der UHH (Stand November 2025) fordert explizit, den Einsatz von gKI an das Kompetenzniveau der Studierenden und die Studienphase anzupassen. Er betont das Deskilling-Risiko: Prüfungen dürfen nicht dazu führen, dass als wertvoll erachtete Kompetenzen verloren gehen oder gar nicht erst aufgebaut werden. Genau das ist die Leitidee von Typ A.

Die Empfehlungen der WiSo-Fakultät (2024) halten fest, dass unbeaufsichtigte schriftliche Prüfungen auch im KI-Zeitalter als Prüfungsform angeboten werden können – sofern eine klare Regelung zur KI-Nutzung getroffen wird. Sie bieten konkrete Optionen für Eigenständigkeitserklärungen (Option A und B), die für Typ-B-Formate direkt einsetzbar sind.

Was fehlt, ist kein institutioneller Rückhalt. Was fehlt, ist die explizite Entscheidung auf Modulebene: In welche Kategorie fällt dieses Format? Prüfe ich hier kognitives Handwerk – oder prüfe ich akademische Architektur?

Diese Entscheidung sollte weder stillschweigend noch von einer Zentralstelle getroffen werden. Die Logik der beschriebenen Architektur verlangt Modulautonomie: In den jeweiligen Fachgebieten und Programmdirektionen muss auf Kursebene entschieden werden, welches Lernziel das Modul verfolgt und welche Prüfungsform dieses Ziel valide abbildet. Eine Einheitsregel von oben würde die inhaltliche Diversität der WiSo-Fakultät ignorieren und die Entscheidung vom Prüfungszweck entkoppeln – genau das, was vermieden werden soll.

Fazit

Die Frage, die zu stellen ist, lautet nicht: Wie viel KI darf erlaubt sein?

Sie lautet: Welche Kompetenz soll diese Prüfung sichtbar machen – und unter welchen Bedingungen ist das noch möglich?

Wer diese Frage beantwortet, findet sich entweder bei Typ A (beaufsichtigt, kein KI-Zugang, kognitives Handwerk kalibrieren) oder bei Typ B (KI gefordert, epistemische Autorität und Haftung für das Endprodukt). Für Formate, die beides verbinden müssen – wie das Lektüreseminar –, gibt es das sequentielle Modell: Phase 1 isoliert die kognitive Vorleistung. Phase 2 transformiert sie unter KI-Einsatz, gebunden an das, was in Phase 1 nachweisbar angelegt wurde. Drei Constraints – Sequenz, Hard Binding, Delta-Logik – sind dabei nicht verhandelbar.

Weder Detektoren noch Verbote lösen das Strukturproblem. Forensik im Nachhinein kann kein sauberes Design im Vorhinein ersetzen. Integrität entsteht durch Architektur.

Die Instrumente liegen bereit – in der Prüfungsordnung, im Orientierungsrahmen, in den Empfehlungen der Fakultät. Was es jetzt braucht, ist die Bereitschaft, auf Modulebene eine funktionale Entscheidung zu treffen.

Wir prüfen aktuell noch zu oft, ob Studierende Häuser per Hand mauern können, obwohl die Gesellschaft von ihnen längst erwartet zu entscheiden, welches Haus gebaut werden soll, für wen, zu welchem Preis und mit welchen Risiken.

Lassen wir die Roboter mauern. Prüfen wir die Architektur. Fordern wir die Haftung ein.

Referenzen

Becker, G. S. (1975). Human Capital: A Theoretical and Empirical Analysis, with Special Reference to Education (2nd ed.). National Bureau of Economic Research / Columbia University Press.

HEPI (2026). Student Generative Artificial Intelligence Survey 2026. https://www.hepi.ac.uk/reports/student-generative-ai-survey-2026/

Spence, M. (1973). Job Market Signaling. The Quarterly Journal of Economics, 87(3), 355–374.

Terwiesch, C. (2023). Would Chat GPT3 Get a Wharton MBA? Mack Institute for Innovation Management, Wharton School.

The University of Sydney (2026). Artificial Intelligence in Assessments. https://www.sydney.edu.au/students/academic-integrity/artificial-intelligence.html

University of Cambridge (2025). Generative AI and Assessment. https://blendedlearning.cam.ac.uk/artificial-intelligence-and-education/generative-ai-and-assessment

University of Michigan (2026). U-M Guidance for Faculty/Instructors. https://genai.umich.edu/resources/faculty

University of Oxford (2025). AI Use in Summative Assessment. https://governance.admin.ox.ac.uk/education-committee/policies/ai-use-in-summative-assessment

Vanderbilt University (2023). Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector. https://www.vanderbilt.edu/brightspace/2023/08/16/guidance-on-ai-detection-and-why-were-disabling-turnitins-ai-detector/

Bezugsdokumente

Prüfungsordnung der Fakultät für Wirtschafts- und Sozialwissenschaften für Studiengänge mit dem Abschluss „Bachelor of Arts“ (B.A.) vom 08.05.2024, veröffentlicht 26.09.2024 (PDF-Download)

Orientierungsrahmen der UHH zum Umgang mit generativen KI-Systemen in Studium und Lehre, Stand 24.11.2025 (PDF-Download)

Empfehlungen für den Umgang mit gKI in Lehre und Prüfungen an der WiSo, Stand 24.10.2024 (PDF-Download)

Anmerkung des Verfassers: Dieser Blogbeitrag wurde unter Zuhilfenahme von Gemini 3.1 Pro, Gemini 3.1 Pro Preview, Claude Sonnet 4.6, ChatGPT 5.4. Thinking, DeepSeek V3.2., sowie Grok 4.20 erstellt.