KI-Firmen wollen Trainingsdaten nicht preisgeben

„AI Act“ verpflichtet KI-Entwickler zur Offenlegung der Datengrundlage - Viele sträuben sich

14. Juni 2024

AI Act EU — © Bartek - stock.adobe.com (Bild KI-generiert)

Um die Datengrundlage für das Training ihrer Künstlichen Intelligenz (KI) machen Softwarefirmen meist ein großes Geheimnis. „Es ist wie beim Kochen“, sagt Matthieu Riouf, Chef der Firma Photoroom, die Bildbearbeitungssoftware mit KI-Unterstützung anbietet. „Es gibt einen Teil des Rezepts, den die besten Köche nicht verraten: Das ‚je ne sais quoi‘, das es anders macht.“

Der europäische „AI Act“ verpflichtet KI-Entwickler allerdings zur Offenlegung der Trainingsdaten, um eine externe Kontrolle der verwendeten Inhalte zu ermöglichen. Das Gesetz besagt unter anderem, dass KI-Entwickler „ausführliche Zusammenfassungen“ der für das Training verwendeten Daten vorlegen müssen. Wie diese Berichte genau aussehen sollen, ist allerdings noch unklar. Das im Aufbau befindliche europäische KI-Büro will nach Konsultationen mit Interessengruppen Anfang 2025 entsprechende Richtlinien veröffentlichen.

Lesen Sie auch

Viele Unternehmen sträuben sich dagegen mit der Begründung, Konkurrenten könnten sich dadurch Vorteile verschaffen. Der EU-Kommission zufolge berücksichtigt der „AI Act“ auf der einen Seite das Bedürfnis der KI-Entwickler nach dem Schutz ihrer Geschäftsgeheimnisse. Auf der anderen Seite ermögliche es Inhalte-Anbietern, bei Bedarf gegenüber diesen Firmen ihr Urheberrecht vor Gericht durchzusetzen.

Seit der Veröffentlichung von ChatGPT vor gut eineinhalb Jahren beherrscht sogenannte Generative KI die Schlagzeilen. Diese Programme können auf Grundlage weniger Anweisungen Texte, Bilder oder Audiodateien erstellen. Hierfür greifen sie auf riesige Datenbanken zurück, die wohl meist mit Inhalten aus dem Internet gefüttert werden. Allerdings wurden KI-Entwickler in den vergangenen Monaten mehrfach von Autoren, Musikern oder Filmemachern auf Urheberrechtsverletzungen verklagt, weil ihre Werke ohne Einwilligung für das KI-Training verwendet wurden. Datenschützer stören sich zudem daran, dass Meta hierfür auch Inhalte und persönliche Daten der Nutzer seiner Plattformen Facebook und Instagram nutzt.

Vor einigen Wochen zog OpenAI die Sprachausgabe der neuesten ChatGPT-Variante zurück, nachdem sich Schauspielerin Scarlett Johansson beschwert hatte, die „Sky“ genannte Stimme klinge der ihrigen „auf unheimliche Weise ähnlich“. Dabei habe sie zuvor ein Angebot des Unternehmens abgelehnt, „Sky“ ihre Stimme zu leihen. Der KI-Entwickler erntete außerdem Kritik für die Weigerung seiner Technologiechefin Mira Murati, in einem Zeitungsinterview die Frage zu beantworten, ob die neue Video-KI „Sora“ mit Hilfe von YouTube-Videos trainiert wurde. Nach Angaben der Videoplattform wäre dies ein Verstoß gegen die Geschäftsbedingungen.

Um weiteren Urheberrechtsklagen vorzubeugen und den wachsenden Druck der Politik abzufedern, haben mehrere Technologiekonzerne in den vergangenen Monaten Lizenzverträge mit Verlagen, Musik-Labeln, Online-Plattformen und TV-Sendern geschlossen. Derartige Selbstverpflichtungen reichten aber nicht aus, betont EU-Parlamentarier Dragos Tudorache, der maßgeblich am „AI Act“ mitgearbeitet hat. Als Kontrollinstrument seien die Transparenzberichte zwingend notwendig. „Sie müssen detailliert genug sein, damit Scarlett Johansson, Beyonce oder wer auch immer weiß, ob ihre Arbeit, ihre Lieder, ihre Stimme, ihre Kunst oder ihre Wissenschaft beim Training des Algorithmus verwendet wurde“, sagte Tudorache.

Die französische Regierung warnt dagegen, dass Europa bei einer zu strengen Regulierung den Anschluss bei der zukunftsträchtigen KI-Technologie verlieren werde. „Europa muss endlich begreifen, dass man erst Innovationen schaffen muss, bevor man reguliert“, sagte Frankreichs Finanzminister Bruno Le Maire bei der Technologie-Konferenz Viva im Mai in Paris. „Sonst läuft man Gefahr, Technologien zu regulieren, die man nicht beherrscht, oder sie schlecht zu regulieren, weil man sie nicht beherrscht.“