Autor: Sven Olaf Fennen

In der sich ständig weiterentwickelnden Bildungs- und Technologielandschaft bewirbt die Firma Turnitin ihr KI-Erkennungstool als ein Instrument, das Studierende in die Lage versetze, ihr Bestes zu geben: originelle Arbeit und akademische Integrität zu gewährleisten. Doch ein Blick auf seine Genauigkeit und Zuverlässigkeit wirft Fragen über die Wirksamkeit solcher Tools in einer Ära der künstlichen Intelligenz, die sich rasant weiterentwickelt, auf.

Das KI-basierte Plagiatserkennungsprogramm von Turnitin rühmt sich einer Trefferquote, die in der Praxis zwischen 90 % und 96 % liegen soll. Trotzdem schneidet das KI-Erkennungstool weniger gut ab, wenn es sich um falsch-positive Ergebnisse handelt, bei denen von Menschen erstellte Inhalte fälschlicherweise als KI-erzeugt gekennzeichnet werden. Diese Diskrepanz ist besonders ausgeprägt bei Dokumenten, die weniger als 20 % KI-Inhalte enthalten.

Annie Chechitelli, Chief Product Officer von Turnitin, räumt ein, dass ihr Tool schätzungsweise 85 % der KI-Inhalte erkennt. Um die Quote der falsch-positiven Resultate klein zu halten, werden gleichzeitig ca. 15% der tatsächlich künstlich erzeugten Texte nicht als solche erkannt. Dies beleuchtet ein Problem, das jedes KI-Erkennungstool hat: Es gilt einen Kompromiss zwischen Sensitivität und Spezifität zu finden.

Eine der größten Herausforderungen von Turnitin ist der Umgang mit Texten, in denen KI-generierte und von Menschen geschriebene Inhalte miteinander verwoben sind. Die Genauigkeit des Tools ist in diesen Szenarien konsequent niedrig.

Dies zeigte sich in einem von der Washington Post durchgeführten Test, bei dem über die Hälfte der getesteten Aufsätze – bestehend aus echten, KI-generierten und gemischten Inhalten – falsche Ergebnisse lieferten, was zeigt, wie schwierig es ist, den komplizierten Tanz zwischen menschlicher und maschinell erzeugter Prosa zu erkennen.

Bei näherer Betrachtung der Daten wird deutlich, dass das Tool auf Satzebene vor besonderen Herausforderungen steht. Laut Chechitelli werden etwa 4 % der Sätze fälschlicherweise als KI-generiert identifiziert. Darüber hinaus befinden sich 54 % dieser falsch-positiven Sätze direkt neben KI-generierten Sätzen, was darauf hindeutet, dass es schwierig ist, zwischen den beiden nahtlos zu unterscheiden, wie Inside Higher Ed behauptet. Weitere 26 % befinden sich zwei Sätze von einem von der KI geschriebenen Satz entfernt.

Für Studierende ist das Schreckgespenst von schlecht funktionierenden KI-Erkennungsprogrammen ein großes Problem. Im Gegensatz zu herkömmlichen Plagiaten, bei denen die Quellen zurückverfolgt und überprüft werden können, fehlt bei KI-generierten Inhalten ein klarer Bezugspunkt. Dies macht es schwierig, die Funktionalität des Detektors zu beweisen oder zu widerlegen, was Bedenken hinsichtlich der möglichen Auswirkungen auf die akademische Integrität der Schüler aufkommen lässt. Darüber hinaus versäumen es viele Lehrkräfte, die Ergebnisse des Tools korrekt zu interpretieren. Turnitin empfiehlt, sie als »Hinweis, nicht als Anschuldigung« zu verwenden.

Das KI-Erkennungstool von Turnitin kann bei der Wahrung der akademischen Korrektheit eine wichtige Rolle spielen. Die nuancierten Herausforderungen, denen es sich bei der Erkennung von Texten aus gemischten Quellen gegenübersieht, und die inhärenten Grenzen der KI-Inhaltserkennung werfen jedoch kritische Fragen auf. Da sich die Technologie in einem noch nie dagewesenen Tempo weiterentwickelt, müssen auch die Instrumente zur Wahrung der akademischen Integrität mit dieser Entwicklung Schritt halten. Das richtige Gleichgewicht zwischen Sensibilität und Spezifität zu finden, ist nach wie vor eine große Herausforderung, mit der sich Turnitin und ähnliche Tools im Streben nach einer fairen und genauen akademischen Landschaft auseinandersetzen müssen.

Aus ethischer Sicht kann die KI-Erkennung von Turnitin ein Werkzeug für den Generalverdacht von Studierenden sein. Sein Einsatz an der Universität Hamburg müsste mit Richtlinien für Lehrende einhergehen, um die Ergebnisse richtig zu interpretieren und sich nicht zu sehr auf sie zu verlassen. Ein Leitfaden für den Einsatz von KI und ihre Integration in die akademische Arbeit wäre viel besser, während KI-Erkennungswerkzeuge nur ein kleines Hilfsmittel darstellen sollte, um verbleibende Verdachtsmomente in Einzelfällen auszulöschen.