Montag, 10.03.2025
Detaillierte Quellendokumentation bei generativer KI ist technisch ohne Weiteres machbar.
GenKI, Urheberrecht + Transparenz: Technische Lösungen für die Dokumentation von Trainingsdaten und Quellen
Prof. Dr. Sebastian Stober zeigt in einem neuen Artikel, dass Anbieter generativer KI-Systeme über ihre Quellen viel detaillierter Auskunft erteilen könnten als behauptet – eine Erkenntnis mit potenziell weitreichenden Folgen für die Urheberrechtsdebatte.
Der Informatiker und KI-Experte Prof. Dr. Sebastian Stober von der Otto-von-Guericke-Universität Magdeburg untersucht in einem Beitrag vom 28. Februar 2025 mit dem Titel „Möglichkeiten der Quellendokumentation und -auskunft bei generativen KI-Systemen“, ob und wie die Anbieter generativer KI-Systeme ihre Trainings- und Referenzquellen detailliert dokumentieren können.
Was sind die Erkenntnisse?
„Das Training generativer KI-Modelle erfordert große Mengen an Trainingsdaten, die zu einem erheblichen Teil durch Web-Scraping aus dem Internet beschafft werden. Weiterhin greifen KI-Systeme mitunter auch während ihres Betriebs auf Quellen aus dem Web zurück, um konkrete Anfragen beantworten zu können. Dies hat zu einer breiten Debatte um Urheber- und Nutzungsrechte geführt. Zweifelsohne werden hier Rechte berührt. Unabhängig davon, inwieweit Rechtsansprüche bestehen, stellt sich jedoch die Frage, ob und wie diese geltend gemacht werden könnten. Eine grundlegende Voraussetzung hierfür ist eine hinreichend detaillierte Quellendokumentation sowie eine adäquate Möglichkeit für Rechteinhaber, über die Quellen Auskunft zu erhalten. Ist dies überhaupt technisch möglich und mit vertretbarem Aufwand umsetzbar? Die kurze Antwort hierauf lautet: Ja, es ist technisch möglich und in vielen Fällen - vor allem bei Quellen aus dem Web – sogar trivial, die Quellen zu dokumentieren und für eine Auskunft zur Verfügung zu stellen. Dieser Artikel beschreibt im Detail, wie pragmatische Lösungen hierzu aussehen könnten.“
Matthias Hornschuh, Sprecher der IU, ordnet die Erkenntnisse ein:
„Nicht erst beim Thema KI ringen wir um Transparenz und Auskunft. Unsere dahingehenden Forderungen ziehen sich wie ein roter Faden durch sämtliche urheberrechtliche Debatten der letzten zwei Jahrzehnte. Ob Labels, YouTube oder nun die KI-Anbieter; stets heißt es: Das können wir nicht, und im Übrigen gefährdet es unsere Geschäftsgeheimnisse. Sebastian Stober zeigt auf, wie „trivial“ die Beauskunftung über erfolgte Nutzungen unserer Werke und Leistungen tatsächlich wäre. Nun wird die Politik eine einfache Entscheidung treffen müssen, nämlich ob sie das Geistige Eigentum von US-Konzernen höher gewichten will als das der Bestohlenen aus dem eigenen Rechtsraum. Unsere Antwort liegt auf der Hand.“
Katharina Uppenbrink ergänzt:
„Sebastian Stobers Handreichungen werden helfen, die Diskussion über den Code of Practice und die Templates endlich anders zu führen. Die KI-Anbieter müssen im Sinne des AI Acts verpflichtet werden, endlich hinreichend detailliert Auskunft über die Trainingsdaten zu geben.“
Sie können den Artikel hier finden:
(DE) https://papers.ssrn.com/abstract=5165182
(EN) https://papers.ssrn.com/abstract=5165118
DOI: http://dx.doi.org/10.2139/ssrn.5165118
Pressekontakt: info@urheber.info