- A. Überblick
- B. Definitionen und Abgrenzung
- C. CC-lizenziertes Trainingsmaterial
- D. Text- und Data-Mining (§ 44b UrhG)
- E. Machine Learning-Output
Literatur: Tim Dornis, Der Schutz künstlicher Kreativität im Immaterialgüterrecht, GRUR 2019, 1252; Patrick Ehinger/Lara Grünberg, Der Schutz von Erzeugnissen künstlicher Kreativität im Urheberrecht, K&R 2019, 232; Maximilian Herberger, „Künstliche Intelligenz“ und Recht, NJW 2018, 2825; Till Jaeger, Künstliche Intelligenz: Kampf um das Urheberrecht, heise online, 17. Februar 2023, https://perma.cc/U37N-B2HZ; Lisa Käde, Kreative Maschinen und Urheberrecht – Die Machine Learning-Werkschöpfungskette vom Training über Modellschutz bis zu Computational Creativity, 2021; Felicitas Lea Kleinkopf, Text- und Data-Mining, 2022; Felix Krone, Urheberrechtlicher Schutz von ChatGPT-Texten?, RDi 2023, 117; Anne Lauber-Rönsberg, Autonome „Schöpfung“ – Urheberrecht und Schutzfähigkeit, GRUR 2019, 244; Niklas Maamar, Urheberrechtliche Fragen beim Einsatz von generativen KI-Systemen, ZUM 2023, 481.
A. Überblick
1 Das Thema der „künstlichen Intelligenz“ macht auch vor CC-Lizenzen keinen Halt – insbesondere, weil in den meisten Fällen unvorstellbare Mengen an Daten erforderlich sind, um zuverlässige Systeme zu entwickeln. Dafür wird verständlicherweise gerne auch auf CC-lizenziertes Material zurückgegriffen. Das Kapitel befasst sich mit der Vereinbarkeit von CC-Lizenzen und Machine Learning- bzw. Text- und Data-Mining-Vorbehalten und der Anwendbarkeit von CC-Lizenzen auf Machine Learning-Output.
B. Definitionen und Abgrenzung
I. Text- und Data-Mining
2 Text- und Data-Mining ist seit 2021 definiert in § 44b Abs. 1 UrhG als „die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“ Die Methodik ist nicht neu, und der Begriff meint die automatisierte, algorithmengesteuerte Analyse großer Mengen von Text bzw. Daten im Allgemeinen.
II. Machine Learning
3 Machine Learning bezeichnet den Vorgang, durch automatisiert ablaufende Optimierungsvorgänge Computerprogramme die Schlussfolgerung „wenn A, dann B“ eigenständig ermitteln zu lassen, anstatt diese vorab zu definieren. Wenn aktuell etwa über ChatGPT, Midjourney oder ähnliche Systeme als „künstliche Intelligenz“ gesprochen wird, sind in der Regel Machine Learning-Modelle Gegenstand der Diskussion.
4 Ein Programm, das lernen soll, Bilder mit Planeten von Bildern mit Astronauten zu unterscheiden, bekommt beispielsweise im Rahmen des „Supervised Learning“, also des überwachten Lernvorgangs, Bilder von Astronauten und Planeten mit der entsprechenden Kennzeichnung („Astronaut“/„Planet“) als Trainingsdaten. Das Programm „weiß“ also, was das gewünschte Ergebnis sein soll, und optimiert seine internen Parameter im Laufe des Trainingsvorgangs so, dass es Strukturen erkennt, die Bilder von Astronauten respektive Planeten gemeinsam haben. In der Folge ist das Programm in der Lage, auch für unbekannte, neue Bilder Aussagen zu treffen, mit welcher Wahrscheinlichkeit ein Planet oder ein Astronaut auf einem Bild zu erkennen ist.
5 Für Machine Learning werden heute vielfach künstliche neuronale Netze oder entscheidungsbaumbasierte Ansätze gewählt. Im Unterschied zu klassischen Computerprogrammen, bei denen jede Variable durch den Menschen vordefiniert wird, besteht der Kern dieser Machine Learning-Systeme aus sogenannten Modellen, die Trainingsdaten verarbeiten und (in vielen Fällen) Output produzieren.
1. Modell
6 Das Herz der Machine Learning-Systeme besteht in der Regel aus einer Vielzahl (teilweise Billiarden) von Parametern, also Zahlenwerten, sowie Strukturinformationen (Hyperparameter), die die Anordnung der Parameter definieren und Berechnungsmethoden vorgeben. Dieses Herz wird in der Regel in ein „klassisches“ Computerprogramm im Sinne des § 69a UrhG eingebunden. Es ist zudem möglich, verschiedene Modelle mit verschiedenen Fähigkeiten miteinander zu kombinieren.
2. Trainingsdaten
7 Trainingsdaten werden die Daten (jeglicher Art) genannt, mit denen die Modelle „trainiert“ werden, und können selbst urheberrechtlich geschützt sein (z.B. Fotos oder als Datenbank gem. § 87a UrhG) oder einfache Daten sein, die keinem Schutzrecht unterfallen. „Training“ bezeichnet in dem Kontext den internen Optimierungsvorgang, das heißt die Optimierung der Billiarden von Parametern, die den Weg von Input zu Output bestimmen. Trainingsdaten, die etwa als Bilder oder auch als Texte vorliegen können, werden für das Training zunächst in eine einheitliche Form gebracht und dann durch ein Computerprogramm in ein Format umgewandelt, das von dem Modell verarbeitbar ist. Die Trainingsdaten sind dann nicht mehr als Bild zu erkennen, sondern existieren für das Modell nur in einer Zahlensammlung (Vektor), die auch nicht unbedingt zusammenhängend ihren Weg durch das Modell nimmt. Die Zahlenform der Trainingsdaten dient dem Modell zur Optimierung seiner Parameter, wird aber ansonsten nicht etwa in dem Modell gespeichert. Dementsprechend enthalten Modelle auch keine Vervielfältigungen von Trainingsdaten.
3. Input
8 Wenn im Zusammenhang mit Machine Learning-Modellen von „Input“ die Rede ist, sind in der Regel Informationen gemeint, die die Benutzerinnen dem Modell zur Verfügung stellen (z.B. Bilder, aber aktuell insbesondere auch Text-Prompts etwa bei ChatGPT). Begrifflich wird nicht immer zwischen Trainingsdaten und Input unterschieden; hier ist jedoch sauber zu trennen, weil die damit verbundenen Akteure (z.B. Entwickler und Benutzerin) durch ihre sehr verschiedenen Rollen und Einsatzzeitpunkte sehr unterschiedlichen Einfluss auf die Modelle ausüben.
4. Output
9 Die Modelle unterscheiden sich wesentlich darin, was für Ergebnisse sie produzieren. Viele Modelle geben lediglich Wahrscheinlichkeitswerte (sog. Vorhersagen) aus, insbesondere, wenn es etwa um Bilderkennung geht. Das ist etwa beim Einsatz von Industriekameras der Fall, die im Produktionsprozess verwendet werden, um Fehler in der Produktion zu identifizieren. In aller Munde sind derzeit generative Machine Learning-Modelle, also Modelle, die Daten – Bilder, Texte, Musik, Computerprogrammcode etc. – erzeugen, wie etwa ChatGPT, Stable Diffusion oder Midjourney. Diese Erzeugnisse werden vereinfacht „Output“ genannt.
III. Künstliche Intelligenz
10 Der Begriff der künstlichen Intelligenz (KI) kann als ein Oberbegriff verschiedener Technologien verstanden werden, zu denen unter anderem Expertensysteme, Robotik und Machine Learning zählen. Wenn also von ChatGPT als „KI“ gesprochen wird, ist eigentlich „Machine Learning“ gemeint. Die fehlende Trennschärfe hat sich inzwischen so etabliert, dass auch hier an vielen Stellen zur Vereinfachung der Begriff „KI“ verwendet wird.
C. CC-lizenziertes Trainingsmaterial
I. Erlauben CC-Lizenzen Machine Learning?
11 CC-Lizenzen sind grundsätzlich nutzungsoffen, eine Einschränkung der Einsatzgebiete erfolgt allenfalls für den nicht-kommerziellen Bereich durch Verwendung der NC-Lizenztypen. Die Frage kann daher so beantwortet werden: Sie verbieten es zumindest nicht explizit. Materialien, die mit CC-Lizenzen veröffentlicht wurden, können grundsätzlich für Machine Learning eingesetzt werden.
II. Müssen CC-Lizenzpflichten im Rahmen des Trainings erfüllt werden?
12 Zunächst werden beim Training regelmäßig nur interne Vervielfältigungen vorgenommen, für die CC-Lizenzen ohnehin keine Lizenzpflichten vorsehen. Pflichten können daher allenfalls bei der Verbreitung der trainierten Modelle zu erfüllen sein, etwa die Nennung der Urheber der Trainingsdaten. Dafür wäre es eine Voraussetzung, dass die Trainingsdaten noch in dem trainierten Modell – etwa dem trainierten neuronalen Netz – enthalten sind. In der in den USA anhängigen Klage der Künstlerinnen Andersen, McKernan und Ortiz gegen Stability AI und Midjourney wird eben diese Auffassung vertreten.
13 Dementsprechend sprechen die besseren Argumente dafür, dass die Lizenzpflichten von CC-Lizenzen im Rahmen des Trainings und bei dem anschließenden Vertrieb des trainierten Modells nicht erfüllt werden müssen, sofern diese Daten nicht in dem Modell reproduzierbar enthalten sind.
D. Text- und Data-Mining (§ 44b UrhG)
I. Anwendungsbereich der Schranke
14 Die Schranke des § 44b UrhG gilt seit der Änderung des deutschen UrhG im Jahr 2021 und setzt Artikel 4 der DSM-Richtlinie um
„Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“
15 Nicht zuletzt aus der Gesetzesbegründung
16 Im zweiten Absatz des § 44b UrhG findet sich die für das Modelltraining relevante Erlaubnis:
„Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.“
17 Die Formulierung „für das Text und Data Mining“ ist dabei weit zu verstehen, sie umfasst nicht nur die Vervielfältigungen, die im Rahmen des Trainingsvorgangs (etwa beim Einlesen der Daten) geschehen, sondern auch Vervielfältigungen im Vorfeld etwa bei der Datensammlung. Diese weite Auslegung folgt auch aus dem Grundsatz „the right to read is the right to mine“
18 Demnach ist es zulässig, im Internet oder an einem anderen Ort vorgefundene, urheberrechtlich geschützte Werke, für den Zweck des Text und Data Minings im Rahmen des Machine Learnings zu vervielfältigen, ohne dafür eine Erlaubnis einzuholen. Bedingungen dafür sind lediglich, dass ein „rechtmäßiger Zugang“ zu dem Werk besteht und dass kein maschinenlesbarer Vorbehalt angebracht ist (dieser ist mit Abs. 3 der Vorschrift grundsätzlich eine Möglichkeit, die Verwendung eigener Werke für das Text und Data Mining zu verhindern – allerdings gelten für CC-lizenzierte Werke hier einige Besonderheiten, vgl. dazu Rn. 20 ff. und Rn. 23 ff.).
19 Rechtmäßig ist der Zugang, wenn das Werk frei im Internet zugänglich ist (und es nicht offensichtlich illegal dort bereitgestellt wurde, wie etwa auf Videopiraterieplattformen) oder wenn ein lizenzierter Zugang zu dem Werk vorhanden ist, sei es im Wege eines Abonnements oder auch im Rahmen einer CC-Lizenz.
II. Darf bei CC-Werken Data Mining vorbehalten werden?
20 § 44b Abs. 3 UrhG ermöglicht es Urheberinnen, die Verwendung der eigenen Werke für Text und Data Mining zu verhindern, indem ein maschinenlesbarer Vorbehaltsvermerk angebracht wird. Es stellt sich die Frage, ob ein solcher Vorbehalt auch bei Verwendung von CC-Lizenzen möglich ist.
21 Ein solcher Vorbehalt schränkt die Benutzung des lizenzierten Werkes ein. Eine spezielle CC-Lizenz analog zu CC BY-ND oder CC BY-NC, wie etwa CC BY-NT („No Text and Data Mining“ / „No Training“) gibt es nicht. Ein separat zur Lizenz maschinenlesbar angebrachter Vorbehalt würde aber de facto die lizenzierten Rechte beschränken.
22 Grundsätzlich steht es den Urhebern natürlich frei, einen solchen Vorbehalt maschinenlesbar anzubringen. Allerdings ist dann zum einen die Bezeichnung als CC-lizenziertes Werk möglicherweise irreführend, wenn ein solcher Vorbehalt besteht – mit der Konsequenz, dass die Verwendung der CC-Logos, CC-Buttons und Markenzeichen in Verbindung mit dem Werk unzulässig ist, und das Werk auch nicht als „CC-lizenziert“ oder ähnlich bezeichnet werden darf (vgl. hierzu Abschnitt 7 und Annex Rn. 3 ff.)
III. Die Text- und Data-Mining-Schranke vs. CC-*-NC
23 Möglicherweise ist ein Vorbehalt de facto aber mit Bordmitteln der CC-Lizenzen zu bewerkstelligen: Mit zunehmendem Einsatz von Machine Learning im kommerziellen Umfeld stellt sich die Frage, ob Material, das unter einer NC-Lizenz veröffentlicht ist, wegen der Schranke des § 44b UrhG für das kommerzielle Modelltraining verwendet werden darf oder ob dem der Vorbehalt der nicht-kommerziellen Verwendung entgegensteht.
24 Die NC-Lizenzen verbieten einen Einsatz des lizenzierten Materials, der primär darauf gerichtet ist, kommerziellen Vorteil oder eine monetäre Vergütung zu erlangen (siehe Abschnitt 1.i Rn. 73). Allerdings wird mit einem Blick in Abschnitt 2.a.2 klar, dass auch die NC-Lizenz die Geltung der Text- und Data-Mining-Schranke nicht grundsätzlich verhindert:
„Ausnahmen und Beschränkungen. Es sei klargestellt, dass, wo immer gesetzliche Ausnahmen und Beschränkungen auf Ihre Nutzung Anwendung finden, die vorliegende Public License nicht anwendbar ist und Sie insoweit ihre Bedingungen nicht einhalten müssen.“
25 Dennoch erlaubt § 44b UrhG in seinem Abs. 3 das Anbringen maschinenlesbarer Vorbehalte. Damit stellt sich die Frage, ob der NC-Zusatz dahingehend zu interpretieren ist, dass er einen sektorspezifischen Vorbehalt gegen Text- und Data-Mining mit den entsprechend lizenzierten Werken darstellt. Jedoch zeigt der oben zitierte Abschnitt 2.a.2 („Ausnahmen und Beschränkungen“), dass CC-Lizenzen nicht die Intention haben, gesetzliche Ausnahmen zu beschränken. Entsprechend sind NC-Lizenzen nicht als Vorbehalt zur Nutzung für Text- und Data-Mining auszulegen.
IV. Vor- und Nachteile des Machine Learning unter CC und § 44b UrhG
26 Bei der Selektierung von Trainingsdaten stellt sich möglicherweise die Frage, ob CC-lizenzierte Werke vorzuziehen sind gegenüber nicht CC-lizenzierten Werken, für die die Schranke des § 44b UrhG geltend gemacht wird. Hierfür ist maßgeblich, welche Pflichten oder Beschränkungen jeweils bestehen.
27 So fordert etwa § 44b Abs. 2 UrhG, dass die angefertigten bzw. entstandenen Vervielfältigungen zu löschen sind, sofern sie nicht mehr erforderlich sind. Dies wirft die Frage auf: Wann tritt dieser Zeitpunkt ein? Wenn ein ML-Modell erstmalig fertig trainiert wurde? Oder sind hier längere Zeiträume denkbar, um Arbeitsergebnisse zu sichern und das Training später reproduzieren zu können? Ist die Erforderlichkeit an das Training eines Modells gebunden, oder bezieht sich das – etwa in einem Data Science-Unternehmen – auf sämtliches Text- und Data Mining?
28 Ob ein Vorbehalt gegen ML-Nutzung nach § 44b Abs. 3 UrhG besteht, ist insbesondere bei nicht CC-lizenzierten Werken zu prüfen. Ein solcher Vorbehalt kann unter Umständen auch bei CC-lizenzierten Werken angebracht werden, zur Wirkung siehe Rn. 20 ff.
E. Machine Learning-Output
I. Sind CC-Lizenzen von Trainingsmaterial relevant für Output der KI?
29 Grundsätzlich sind CC-Lizenzen von Trainingsmaterial nicht relevant für die Nutzung des Outputs, wenn der Output – wie im Regelfall – keine Vervielfältigung des Trainingsmaterials enthält. Falls dies doch einmal der Fall ist, etwa bei der Verwendung entsprechender Prompts und Parameter,
II. Sind CC-Lizenzen von Machine Learning-Modellen relevant für Output der KI?
30 Die Frage zielt darauf ab, ob die Lizenzierung des Machine Learning-Modells Auswirkungen auf den Urheberrechtsschutz der Erzeugnisse des Modells hat. Dies dürfte im Regelfall zu verneinen sein: Die Lizenzierung bezieht sich stets nur auf den konkreten Schutzgegenstand und möglicherweise dessen Derivate. Erzeugnisse von ML-Modellen sind jedoch keine Derivate derselben (im Sinne abgewandelter/erweiterter Versionen des Ausgangswerkes), sondern lediglich Produkt des Systems. Wie auch bei anderen Computerprogrammen (vgl. z.B. die Lizenzierung von Open Office und ein damit produziertes Textdokument) sind das Machine Learning-Modell und sein Output getrennt zu betrachten.
III. Kann Output von Machine Learning unter CC lizenziert werden?
31 Ob für ML-Output CC-Lizenzen verwendet werden können, hängt davon ab, ob ein schutzfähiges Werk vorliegt, das überhaupt Gegenstand einer Lizenz sein kann. Output, der nicht schutzfähig ist, kann nicht mit Wirkung gegenüber jedermann lizenziert werden. Die Frage nach der Schutzfähigkeit wird aktuell in der Rechtswissenschaft stark diskutiert;
32 Mit zunehmender Einflussmöglichkeit – etwa durch stark optimierte Prompts oder iterative Bearbeitungen etwa eines generierten Bildes – steigt die Wahrscheinlichkeit, dass den Benutzenden Urheberrechte am ML-Output zustehen.
33 Dadurch entstehen verschiedene Situationen, die separat zu bewerten sind:
Anwendung einer CC-Lizenz auf nicht urheberrechtlich geschützten ML-Output
Anwendung einer CC-Lizenz auf urheberrechtlich geschützten ML-Output
Anwendung einer CC-Lizenz auf bearbeiteten ML-Output
34 In 1. ist von der Verwendung einer CC-Lizenz abzuraten, denn wo keine Urheberrechte bestehen, können auch keine Rechte im Lizenzwege eingeräumt werden. Im Sinne der Rechtssicherheit empfehlenswert wäre die Anbringung einer Public Domain Dedication, sofern diese möglich ist. Umgekehrt dürfen die Lizenzbedingungen einer CC-Lizenz für ML-Output nicht einfach ignoriert werden. Zum einen ist dem Output kaum anzusehen, ob darin kreativer Input eines Menschen eingeflossen ist, zum anderen ist auch eine vertragliche Bindung des Nutzers durch die CC-Lizenz denkbar (siehe unten Rn. 38 ff.).
35 In 2. spricht nichts gegen die Verwendung einer CC-Lizenz, sofern die Benutzenden als Urheber einzuordnen sind.
36 3. dürfte ein einigermaßen häufig vorkommender Fall sein – ein Erzeugnis wird mittels eines ML-Tools hergestellt und für die weitere Verwendung bearbeitet, etwa durch die Nutzung von Filtern, Erweiterung des Inhalts, Änderung von Farbräumen, Hinzufügen oder Entfernen von Elementen eines Bildes etc. In diesem Fall kommt es darauf an, ob in der Bearbeitung eine persönliche geistige Schöpfung zu sehen ist – dann besteht die Möglichkeit, für das durch Bearbeitung entstandene Werk eine CC-Lizenz zu verwenden. Diese beeinflusst jedoch nicht das zugrundeliegende gemeinfreie KI-Erzeugnis, das weiterhin von jedermann beliebig genutzt, verändert und verbreitet werden kann.
37 Eine Herausforderung dürfte in den meisten Fällen die Beweisbarkeit darstellen: Solange die Verwendung von KI-Tools potenziell Gemeinfreiheit zur Folge hat, besteht kein Anreiz dafür, offenzulegen, dass KI eingesetzt wurde. Dies im Einzelfall nachzuweisen, um die urheberrechtliche Vermutungswirkung (§ 10 UrhG)
IV. Auswirkungen vertraglicher Vereinbarungen etwa im Rahmen von Nutzungsbedingungen
38 Nicht selten wird mit der unklaren Lage in Bezug auf die Output-Urheberschaft so umgegangen, dass die Anbieter der KI-Modelle sich in ihren Nutzungsbedingungen mit der „Verteilung“ von Urheberrechten befassen. Midjourney etwa räumt den Benutzerinnen, die einen kostenlosen Zugang zum System haben, Urheberrechte am Output nur in Form einer CC BY-NC-Lizenz ein, während bezahlende Benutzer zu Urhebern an dem von ihnen erstellten Output erklärt werden.
39 Selbstverständlich kann das Entstehen von originären Urheberrechten nicht Gegenstand vertraglicher Vereinbarungen sein. Insofern kommt es allein auf die tatsächliche Lage an und ob eine persönliche geistige Schöpfung vorliegt.
40 Jedoch ist denkbar, zumal unter der Anwendung einer ausländischen Rechtsordnung, dass die Nutzungsbedingungen eines ML-Tools zu einer vertraglichen Bindung führen. Dann wäre der Nutzer verpflichtet, die „Lizenzbedingungen“ der referenzierten CC-Lizenz einzuhalten, obwohl kein schutzfähiger Lizenzgegenstand existiert. Jedoch kommt einer solchen vertraglichen Vereinbarung keine Drittwirkung zu. Wer solchen Output erhält, ohne Vertragspartner des ML-Tool-Anbieters zu sein, darf ihn ohne Beschränkungen nachnutzen.
Creative Commons Lizenz
Open Access Kommentar, Kommentierung zu J. TDM, Machine Learning und KI ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.