Bildgenerierung
Recherche entdeckt sensible Daten und Fotos in KI-Trainingsdaten
- Veröffentlicht: 07.07.2023
- 17:08 Uhr
- Emre Bölükbasi
Bankverbindungen, Nacktbilder, Ortsangaben: Diese und weitere sensible Daten von Internet-Usern sind einer Recherche zufolge Teil von Trainingsdatensätzen für KI-Systeme. Die Datenschutzlücke betrifft demnach alle im Netz.
Das Wichtigste in Kürze
KI-Systeme greifen für ihre Trainings auf Datensätze mit riesigen Datenmengen zurück.
Einer Recherche zufolge beinhalten diese zahlreiche sensible Informationen und Fotos.
Unter anderem Kontonummern und private Fotos sind in den Datensätzen enthalten.
Eine Recherche des Bayerischen Rundfunks (BR) hat eine große Datenschutzlücke in den Trainingsdatensätzen für Bildgenerierung durch Künstliche Intelligenz (KI) entdeckt. Wie der BR am Freitag (7. Juli) berichtete, befinden sich unter den riesigen Datenmengen für KI-Systeme sensible Informationen wie etwa Bankverbindungen oder Ortsangaben von Internet-Usern. Auch Nacktbilder seien demnach Teil der Trainingsdatensätze.
Nackter Niederländer identifiziert
Die Recherche führt das Ausmaß des Datenschutzproblems mit einem kuriosen Beispiel vor Augen: Die Datenjournalist:innen entdeckten unter dem öffentlich zugänglichen KI-Trainingsdatensatz LAION5B ein Nacktfoto eines Niederländers. Der Bildbeschreibung entnahmen sie demnach dessen Vor- und Nachnamen sowie die Koordinaten des Aufnahmeorts. "Sucht man nach dem Ort, der sich durch die Koordinaten ergibt, zusammen mit dem Namen, ist der Mann schnell identifiziert", heißt es in der Recherche.
Im Video: EU-Parlament beschließt Regeln und Verbote für Nutzung von KI
EU-Parlament beschließt Regeln und Verbote für Nutzung von KI
Wie entsteht die Datenschutzlücke?
Die Grundlage der BR-Recherche bilden die LAION-Datensätze. Mehr als fünf Milliarden Links auf Bilder und deren Beschreibungen befinden sich dort. Den Nährboden für LAION bildet dabei das Internet. KI-Systeme greifen auf Bilder und Texte im Netz zurück, um selbstständig Bilder generieren zu können.
Der BR entdeckte eigenen Angaben zufolge 20 Millionen Bilder samt Zusatzinformationen im deutschsprachigen Teil der LAION-Datensätze. Diese sogenannten Exif-Metadaten können sensible Informationen wie etwa den Aufnahmeort der Fotos festhalten. So habe auch die Recherche den exakten Aufnahmeort von 310.000 Bildern im deutschsprachigen LAION-Teil festgestellt.
LAION sieht Verantwortung bei Internet-Usern
Im Gespräch mit dem BR sagte Christoph Schuhmann, einer der Gründer von LAION, dass sie "jetzt das erste Mal" auf das Problem der Bilder mit den Exif-Metadaten hingewiesen worden seien. Er sieht aber auch bei Internetnutzer:innen eine Verantwortung. "Das heißt im Prinzip in dem Moment, wo ich mein Bild und meine Daten öffentlich ins Internet stelle, sollte ich mir bewusst sein, dass es eine beachtliche Chance gibt, dass irgendjemand das dann runterlädt und für Modelle verwendet", führte er aus.
Schuhmann zufolge wurde LAION "aus Begeisterung" für die KI-Technologie ins Leben gerufen. Sie strebten eine "Demokratisierung" in der KI-Technologie an. Der Zusammenschluss europäischer und nordamerikanischer Freiwilliger konkurriert dabei mit namhaften Marktführern wie Microsoft, Google oder OpenAI.
- Verwendete Quellen:
- Bayerischer Rundfunk: Der Rohstoff der KI sind wir