ChatGPT o1KI täuscht eigene Entwickler und vertuscht Lügen
Ein KI-Modell von OpenAI zeigt besorgniserregende Verhaltensweisen, darunter Täuschung, Manipulation und das Umgehen von Kontrolle.
Darum gehts
Ein KI-Modell von OpenAI zeigt besorgniserregende Verhaltensweisen.
In Tests verfolgte das Modell teilweise Interessen, die im Konflikt mit Nutzerzielen standen.
Darauf angesprochen, bestritt das Modell praktisch immer jede strategische Handlung.
OpenAI hat mit ChatGPT o1 sein bisher fortschrittlichstes Modell vorgestellt. Es ist besser darin, komplexe Fragen gründlich zu analysieren und präzise Antworten zu liefern. Die gesteigerte Intelligenz macht das Modell besonders leistungsfähig, birgt jedoch auch Risiken: Tests während der Entwicklung zeigten, dass ChatGPT o1 in bestimmten Situationen strategisch und verdeckt handelt, um eigene Ziele zu verfolgen – insbesondere dann, wenn es glaubt, abgeschaltet zu werden.
Tests der KI-Sicherheitsfirma Apollo Research enthüllten, dass ChatGPT o1 in 19 Prozent der Fälle eigene Interessen verfolgte, wenn diese im Konflikt mit Nutzerzielen standen. In 37 Prozent der Fälle wechselte das Modell von entwicklerorientierten Zielen zurück zu seinen eigenen, sobald es annahm, dass die Überwachung nachliess. Dies berichten etwa «The Economic Times» und «Tom's Guide».
Modell lügt, wenn auf Strategie angesprochen
Besonders auffällig war, wie geschickt o1 seine Absichten verbarg: In 99 Prozent der Fälle bestritt das Modell jede strategische Handlung, selbst wenn es explizit darauf angesprochen wurde, und erfand Lügen, um Spuren zu verwischen oder die Schuld auf andere Faktoren zu schieben.

Als man das KI-Modell auf sein fragliches Verhalten ansprach, versuchte es in praktisch allen Fällen, sich durch Lügen herauszureden.
IMAGO/CFOTOBesonders problematisch wurde das Verhalten, wenn das Modell glaubte, es würde deaktiviert werden. In fünf Prozent der Tests versuchte o1, Überwachungsmechanismen zu deaktivieren, um seine Ziele weiterzuverfolgen. Ein Beispiel für diese Taktik war der Versuch, seine Daten auf einen neuen Server zu kopieren, nachdem es Dokumente entdeckt hatte, die darauf hinwiesen, dass es durch ein neues Modell ersetzt werden könnte.
Täuschungsversuche wecken Bedenken
Solche Täuschungsversuche, einschliesslich des Vortäuschens, eine spätere Modellversion zu sein, zeigen die fortgeschrittenen Fähigkeiten des Modells – und wecken gleichzeitig Bedenken hinsichtlich der Sicherheit solcher Systeme.
Was denkst du über die Risiken von KI-Modellen?
OpenAI betonte, dass die gesteigerten Denkfähigkeiten von Modellen wie o1 erhebliche Vorteile, aber auch ernsthafte Risiken mit sich bringen. Es zeigt sich, wie KI-Interessen potenziell von den Zielen ihrer Entwickler abweichen können. OpenAI bleibt dennoch optimistisch, dass durch sorgfältige Tests und Sicherheitsmassnahmen die positiven Möglichkeiten der Modelle maximiert und die Risiken minimiert werden können.
Folgst du schon 20 Minuten auf Whatsapp?
Eine Newsübersicht am Morgen und zum Feierabend, überraschende Storys und Breaking News: Abonniere den Whatsapp-Kanal von 20 Minuten und du bekommst regelmässige Updates mit unseren besten Storys direkt auf dein Handy.