KI-Erkennungstools im Hochschulbetrieb: Wie verlässlich ist Turnitin’s Plagiatserkennungsprogramm?

Veröffentlicht am 12. Januar 2024 von Heiko Witt mit den Tags KI, Künstliche Intelligenz

Das im Screenshot gezeigte Dokument enthält den ersten Absatz des Artikels „Prüfung oder Assessment an Hochschulen? Thesen für einen Wandel der Prüfungskultur“ von Gabi Reinmann, erschienen in dem Sammelband „Kompetent Prüfungen gestalten. 60 Prüfungsformate für die Hochschullehre“ (herausgegeben von Julia Gerick, Angela Sommer, Germo Zimmermann; 2. Auflage, 2022). Aus dem Originaltext wurden lediglich die Quellenangaben entfernt. Der Sammelband ist für Hochschulmitglieder mit Bibliothekslizenz online zugänglich. Turnitin erkennt die tatsächliche Urheberschaft dieses Absatzes nicht. (Screenshot: Turnitin)

Autor: Sven Olaf Fennen

In der sich ständig weiterentwickelnden Bildungs- und Technologielandschaft bewirbt die Firma Turnitin ihr KI-Erkennungstool als ein Instrument, das Studierende in die Lage versetze, ihr Bestes zu geben: originelle Arbeit und akademische Integrität zu gewährleisten. Doch ein Blick auf seine Genauigkeit und Zuverlässigkeit wirft Fragen über die Wirksamkeit solcher Tools in einer Ära der künstlichen Intelligenz, die sich rasant weiterentwickelt, auf.

Das KI-basierte Plagiatserkennungsprogramm von Turnitin rühmt sich einer Trefferquote, die in der Praxis zwischen 90 % und 96 % liegen soll. Trotzdem schneidet das KI-Erkennungstool weniger gut ab, wenn es sich um falsch-positive Ergebnisse handelt, bei denen von Menschen erstellte Inhalte fälschlicherweise als KI-erzeugt gekennzeichnet werden. Diese Diskrepanz ist besonders ausgeprägt bei Dokumenten, die weniger als 20 % KI-Inhalte enthalten.

Annie Chechitelli, Chief Product Officer von Turnitin, räumt ein, dass ihr Tool schätzungsweise 85 % der KI-Inhalte erkennt. Um die Quote der falsch-positiven Resultate klein zu halten, werden gleichzeitig ca. 15% der tatsächlich künstlich erzeugten Texte nicht als solche erkannt. Dies beleuchtet ein Problem, das jedes KI-Erkennungstool hat: Es gilt einen Kompromiss zwischen Sensitivität und Spezifität zu finden.

Eine der größten Herausforderungen von Turnitin ist der Umgang mit Texten, in denen KI-generierte und von Menschen geschriebene Inhalte miteinander verwoben sind. Die Genauigkeit des Tools ist in diesen Szenarien konsequent niedrig.

Dies zeigte sich in einem von der Washington Post durchgeführten Test, bei dem über die Hälfte der getesteten Aufsätze – bestehend aus echten, KI-generierten und gemischten Inhalten – falsche Ergebnisse lieferten, was zeigt, wie schwierig es ist, den komplizierten Tanz zwischen menschlicher und maschinell erzeugter Prosa zu erkennen.

Bei näherer Betrachtung der Daten wird deutlich, dass das Tool auf Satzebene vor besonderen Herausforderungen steht. Laut Chechitelli werden etwa 4 % der Sätze fälschlicherweise als KI-generiert identifiziert. Darüber hinaus befinden sich 54 % dieser falsch-positiven Sätze direkt neben KI-generierten Sätzen, was darauf hindeutet, dass es schwierig ist, zwischen den beiden nahtlos zu unterscheiden, wie Inside Higher Ed behauptet. Weitere 26 % befinden sich zwei Sätze von einem von der KI geschriebenen Satz entfernt.

Für Studierende ist das Schreckgespenst von schlecht funktionierenden KI-Erkennungsprogrammen ein großes Problem. Im Gegensatz zu herkömmlichen Plagiaten, bei denen die Quellen zurückverfolgt und überprüft werden können, fehlt bei KI-generierten Inhalten ein klarer Bezugspunkt. Dies macht es schwierig, die Funktionalität des Detektors zu beweisen oder zu widerlegen, was Bedenken hinsichtlich der möglichen Auswirkungen auf die akademische Integrität der Schüler aufkommen lässt. Darüber hinaus versäumen es viele Lehrkräfte, die Ergebnisse des Tools korrekt zu interpretieren. Turnitin empfiehlt, sie als »Hinweis, nicht als Anschuldigung« zu verwenden.

Das KI-Erkennungstool von Turnitin kann bei der Wahrung der akademischen Korrektheit eine wichtige Rolle spielen. Die nuancierten Herausforderungen, denen es sich bei der Erkennung von Texten aus gemischten Quellen gegenübersieht, und die inhärenten Grenzen der KI-Inhaltserkennung werfen jedoch kritische Fragen auf. Da sich die Technologie in einem noch nie dagewesenen Tempo weiterentwickelt, müssen auch die Instrumente zur Wahrung der akademischen Integrität mit dieser Entwicklung Schritt halten. Das richtige Gleichgewicht zwischen Sensibilität und Spezifität zu finden, ist nach wie vor eine große Herausforderung, mit der sich Turnitin und ähnliche Tools im Streben nach einer fairen und genauen akademischen Landschaft auseinandersetzen müssen.

Aus ethischer Sicht kann die KI-Erkennung von Turnitin ein Werkzeug für den Generalverdacht von Studierenden sein. Sein Einsatz an der Universität Hamburg müsste mit Richtlinien für Lehrende einhergehen, um die Ergebnisse richtig zu interpretieren und sich nicht zu sehr auf sie zu verlassen. Ein Leitfaden für den Einsatz von KI und ihre Integration in die akademische Arbeit wäre viel besser, während KI-Erkennungswerkzeuge nur ein kleines Hilfsmittel darstellen sollte, um verbleibende Verdachtsmomente in Einzelfällen auszulöschen.

4 Kommentare

Heiko
Januar 18, 2024 um 8:37 am Uhr

Antworten

Dazu passt:

https://www.heise.de/hintergrund/Warum-KI-Erkennungswerkzeuge-so-leicht-zu-betruegen-sind-9211815.html

Antworten
Heiko Witt
Januar 22, 2024 um 1:39 pm Uhr

Antworten

https://dl-wiso.blogs.uni-hamburg.de/veranstaltungsdokumentation-ki-detektoren-und-digitale-pruefungen-moeglichkeiten-und-pruefungsrechtliche-grenzen/

Antworten
Eibl Julie
November 19, 2024 um 10:50 am Uhr

Antworten

Ich organisiere eine Recherche über Turnitin und benötige Informationen, ob die angegebenen Erkennungsquoten in der Praxis zutreffen. Könnten Sie vielleicht mir weiterhelfen?

In Ihrem Artikel wird angegeben, dass Turnitin unter idealen Bedingungen theoretisch eine Trefferquote von bis zu 96 % erreichen kann. Allerdings wird darauf hingewiesen, dass durch falsch-positive und falsch-negative Ergebnisse die tatsächliche Erfolgsquote in der Praxis auf etwa 85 % sinkt.
Stimmen diese Quoten mit Ihren Erfahrungen überein?
Mit freundlichen Grüßen,

Antworten
Heiko Witt
November 19, 2024 um 3:19 pm Uhr

Antworten

Guten Tag! Wir im Support für die digitale Lehre an der WiSo-Fakultät nutzen Turnitin nicht selbst – und wenn, dann nur im Einzelfall, um einen persönlichen Eindruck von den Möglichkeiten zu erhalten. Es sind Lehrende selbst, die Turnitin nutzen.
Ähnlich wie die Expertin Weber-Wulff (siehe die Links in meinen vorigen Kommentaren) halte ich die Aussagekraft von Plagiatserkennungssoftwares für ziemlich begrenzt. Und seit der Verfügbarkeit generativer KI-Anwendungen sehe ich solche Softwares noch kritischer.

Antworten

KI-Erkennungstools im Hochschulbetrieb: Wie verlässlich ist Turnitin’s Plagiatserkennungsprogramm?

4 Kommentare

Schreibe einen Kommentar Antworten abbrechen