Oxford-Forscher: Zunehmende Nutzung führt zu Zusammenbruch von KI

Generative KI kann schnell neue Inhalte erzeugen. Diese Fülle bleibt nicht ohne Folgen. Eine Studie aus England warnt davor, dass sich Fehler mit der Zeit häufen und schließlich zu einem Phänomen führen, das die Forscher als „Modellkollaps“ bezeichnen.
Generieren Nutzer von KI bevorzugt Schäferhunde, verlernt die KI andere Hunderassen.
Generieren Nutzer von KI bevorzugt Schäferhunde, verlernt die KI andere Hunderassen. Das kann auch für Sprachen, Zusammenhänge und Informationen gelten und zum Zusammenbruch von KI führen.Foto: ts/Epoch Times mit Material von Sashkinw, diego_cervo/ iStock
Von 26. Oktober 2024

Modelle des maschinellen Lernens wie Gemini von Google und ChatGPT von OpenAI haben den Weg für eine Vielzahl von Anwendungen und Tools geebnet. Diese haben ihrerseits den Weg in den Alltag gefunden und können Gedichte erstellen oder beim Verfassen von E-Mails helfen. Die rasant steigende Leistung dieser Modelle wird im Allgemeinen auf effiziente Hardware und hochwertige Daten zurückgeführt.

Eine Studie von Professor Yarin Gal von der University of Oxford, England, ergab, dass sich zwar die Hardware verbessert, dies aber nicht für die Daten gilt. Durch den weitverbreiteten Einsatz von Modellen des maschinellen Lernens werden immer mehr KI-Daten ohne menschliche Aufsicht erzeugt, was die Art und Weise, wie die Modelle lernen, grundlegend verändert.

Anhäufung von selbst gemachten Fehlern

Laut den englischen Forschern führe das Training von KI-Modellen mit Daten, die von früheren Modellen erzeugt wurden, zu langfristigen Lernproblemen. Die Modelle verlieren an Qualität und können schließlich versagen, wenn sie auf rekursiv erzeugten Daten trainiert werden, also wenn sie Daten aufnehmen, die sie oder ihre Vorgänger selbst erzeugt haben.

Zurückzuführen sei dies darauf, dass sich im Laufe der Zeit kleinere Fehler und Fehleinschätzungen ansammeln, die den Modellen des maschinellen Lernens eigen sind. Diese werden dann von später trainierten Modellen reproduziert, die ihrerseits leichte Fehler hinzufügen.

„In den meisten Fällen handelt es sich um einen Kaskadeneffekt, bei dem einzelne Ungenauigkeiten zusammenwirken und den Gesamtfehler anwachsen lassen“, so die Forscher. Weiter erklärte Professor Yarin Gal:

Der Modellkollaps ist das KI-Äquivalent einer schief gelaufenen Rückkopplungsschleife. Je mehr Modelle von ihren eigenen Ergebnissen zehren, desto weiter entfernen sie sich von der Realität. Der Modellkollaps droht zu einer KI-Echokammer zu werden.“

Bereits nach fünf Generationen zeigten sich beachtliche Fehler, nach neun Generationen seien die Ergebnisse unbrauchbar. Ein besonderes Problem dabei stellen Wiederholungen dar, wie sie bereits jetzt in Antworten von Sprach-KIs auftauchen. Auch das Weglassen von Informationen führt letztlich zum Kollaps des Modells.

Ein Dackel wird zum Schäferhund

Was heißt das im Einzelfall? Die ersten KI-Modelle wurden ausschließlich mit von Menschen erzeugten Daten trainiert. Das hat den Nachteil, dass die Daten (relativ) beschränkt sind, zugleich ist allerdings die inhaltliche Qualität sehr gut. Die KI der ersten Stunde haben demnach qualitativ hochwertige Trainingsdaten und erzeugen daraus – mehr oder weniger – gute Ergebnisse. Doch „wenn die Trainingsdaten der meisten zukünftigen Modelle ebenfalls aus dem Internet stammen, werden sie unweigerlich mit Daten trainieren, die von ihren Vorgängern produziert wurden“, heißt es in der Studie.

Das heißt, die ursprünglich menschlichen Trainingsdaten werden durch mehr und mehr KI-erzeugte Inhalte ergänzt. Diese Mischung bietet zwar mehr Material, welches aber durchschnittlich eine schlechtere Qualität aufweist. Auf diese Weise kann sich ein einmal gemachter Fehler fortsetzen und multiplizieren. Oder um es mit den Worten der Forscher auszudrücken:

Die Veröffentlichung von KI-generierten Inhalten im Internet wird die Sammlung von Daten verunreinigen.“

Eine beispielhafte Erklärung können Hunde liefern: Labradore, Schäferhunde, Dackel, Golden Retriever, Australian Shepherds und wie sie alle heißen. Diese Vielzahl an Trainingsdaten floss in die ersten KI-Modelle ein. Weil aber Nutzer beispielsweise Schäferhunde besonders süß finden, nutzen die KI sie, um Bilder dieser Hunderasse zu erstellen.

Lernt die zweite Generation KI jetzt aus diesen Daten, stellt sie fest, dass viel mehr Schäferhunde existieren als andere Hunde. Das verbessert einerseits die Fähigkeit, Schäferhunde zu erstellen, minimiert aber die Vielfalt der Hunderassen. Bereits nach wenigen Durchgängen kann es dazu kommen, dass „Hund“ mit „Schäferhund“ gleichgesetzt wird und die KI die Fähigkeit, andere Hunde darzustellen, gänzlich verliert.

KI nur mit Originaldaten sinnvoll

Diese Art Kollaps war in der Studie nahezu unvermeidbar. Sie zeigt somit erhebliche Auswirkungen auf die Zukunft der sich schnell entwickelnden und weitverbreiteten KI-Modelle. Gleichzeitig wirft sie Fragen zu ihrer Robustheit und Wirksamkeit der neuen Technologie auf.

„Vergiftungsangriffe auf Sprachmodelle“ seien nicht neu, fassen Gal und Kollegen zusammen. Sogenannte Trolle versuchen, soziale Netzwerke und Suchalgorithmen gezielt in die Irre zu führen. „Der Unterschied zur KI ist das Ausmaß, in dem eine solche Vergiftung stattfinden kann.“

Laut den Forschern sei daher wichtig, für die künftige Entwicklung von Modellen des maschinellen Lernens Zugang zu Originaldaten, die von Menschen erstellt wurden, zu haben und zu erhalten. Nur so könnten Folgefehler und ein Zusammenbruch verhindert werden. Ihre Studie unterstreicht auch die Notwendigkeit der Zuordnung und Herkunft von Daten – insbesondere wenn es immer schwieriger wird, echte Daten von KI-generierten Inhalten zu unterscheiden.

Die Studie erschien im Juli 2024 im Fachblatt „Nature“.



Epoch TV
Epoch Vital
Kommentare
Liebe Leser,

vielen Dank, dass Sie unseren Kommentar-Bereich nutzen.

Bitte verzichten Sie auf Unterstellungen, Schimpfworte, aggressive Formulierungen und Werbe-Links. Solche Kommentare werden wir nicht veröffentlichen. Dies umfasst ebenso abschweifende Kommentare, die keinen konkreten Bezug zum jeweiligen Artikel haben. Viele Kommentare waren bisher schon anregend und auf die Themen bezogen. Wir bitten Sie um eine Qualität, die den Artikeln entspricht, so haben wir alle etwas davon.

Da wir die Verantwortung für jeden veröffentlichten Kommentar tragen, geben wir Kommentare erst nach einer Prüfung frei. Je nach Aufkommen kann es deswegen zu zeitlichen Verzögerungen kommen.


Ihre Epoch Times - Redaktion