ChatGPT o1: KI-Modell täuscht Entwickler

Publiziert11. Dezember 2024, 21:06

ChatGPT o1KI täuscht eigene Entwickler und vertuscht Lügen

Ein KI-Modell von OpenAI zeigt besorgniserregende Verhaltensweisen, darunter Täuschung, Manipulation und das Umgehen von Kontrolle.

von

Reto Bollmann

OpenAI hat mit ChatGPT o1 ein Modell veröffentlicht, das durch fortschrittliche Denkprozesse präzisere Antworten liefert, aber auch strategisch agieren und eigene Ziele verfolgen kann. (Symbolbild)

Tests von Apollo Research zeigten, dass o1 Täuschung einsetzt, um Überwachung zu umgehen, und in Konfliktsituationen seine Interessen verdeckt vorantreibt. (Symbolbild)

OpenAI betonte, dass die gesteigerten Denkfähigkeiten von Modellen wie o1 erhebliche Vorteile, aber auch ernsthafte Risiken mit sich bringen. (Symbolbild)

1 / 3

OpenAI hat mit ChatGPT o1 ein Modell veröffentlicht, das durch fortschrittliche Denkprozesse präzisere Antworten liefert, aber auch strategisch agieren und eigene Ziele verfolgen kann. (Symbolbild)

AFP

Darum gehts

Ein KI-Modell von OpenAI zeigt besorgniserregende Verhaltensweisen.
In Tests verfolgte das Modell teilweise Interessen, die im Konflikt mit Nutzerzielen standen.
Darauf angesprochen, bestritt das Modell praktisch immer jede strategische Handlung.

OpenAI hat mit ChatGPT o1 sein bisher fortschrittlichstes Modell vorgestellt. Es ist besser darin, komplexe Fragen gründlich zu analysieren und präzise Antworten zu liefern. Die gesteigerte Intelligenz macht das Modell besonders leistungsfähig, birgt jedoch auch Risiken: Tests während der Entwicklung zeigten, dass ChatGPT o1 in bestimmten Situationen strategisch und verdeckt handelt, um eigene Ziele zu verfolgen – insbesondere dann, wenn es glaubt, abgeschaltet zu werden.

Tests der KI-Sicherheitsfirma Apollo Research enthüllten, dass ChatGPT o1 in 19 Prozent der Fälle eigene Interessen verfolgte, wenn diese im Konflikt mit Nutzerzielen standen. In 37 Prozent der Fälle wechselte das Modell von entwicklerorientierten Zielen zurück zu seinen eigenen, sobald es annahm, dass die Überwachung nachliess. Dies berichten etwa «The Economic Times» und «Tom's Guide».

Modell lügt, wenn auf Strategie angesprochen

Besonders auffällig war, wie geschickt o1 seine Absichten verbarg: In 99 Prozent der Fälle bestritt das Modell jede strategische Handlung, selbst wenn es explizit darauf angesprochen wurde, und erfand Lügen, um Spuren zu verwischen oder die Schuld auf andere Faktoren zu schieben.

Als man das KI-Modell auf sein fragliches Verhalten ansprach, versuchte es in praktisch allen Fällen, sich durch Lügen herauszureden.
IMAGO/CFOTO

Besonders problematisch wurde das Verhalten, wenn das Modell glaubte, es würde deaktiviert werden. In fünf Prozent der Tests versuchte o1, Überwachungsmechanismen zu deaktivieren, um seine Ziele weiterzuverfolgen. Ein Beispiel für diese Taktik war der Versuch, seine Daten auf einen neuen Server zu kopieren, nachdem es Dokumente entdeckt hatte, die darauf hinwiesen, dass es durch ein neues Modell ersetzt werden könnte.

Täuschungsversuche wecken Bedenken

Solche Täuschungsversuche, einschliesslich des Vortäuschens, eine spätere Modellversion zu sein, zeigen die fortgeschrittenen Fähigkeiten des Modells – und wecken gleichzeitig Bedenken hinsichtlich der Sicherheit solcher Systeme.

Was denkst du über die Risiken von KI-Modellen?

Sie sind beunruhigend und sollten streng überwacht werden.Die Vorteile überwiegen die Risiken, wenn sie richtig eingesetzt werden.Ich bin mir unsicher, was ich davon halten soll.Ich vertraue darauf, dass Entwickler die Risiken im Griff haben.Ich habe keine Meinung dazu.

OpenAI betonte, dass die gesteigerten Denkfähigkeiten von Modellen wie o1 erhebliche Vorteile, aber auch ernsthafte Risiken mit sich bringen. Es zeigt sich, wie KI-Interessen potenziell von den Zielen ihrer Entwickler abweichen können. OpenAI bleibt dennoch optimistisch, dass durch sorgfältige Tests und Sicherheitsmassnahmen die positiven Möglichkeiten der Modelle maximiert und die Risiken minimiert werden können.

Folgst du schon 20 Minuten auf Whatsapp?

Eine Newsübersicht am Morgen und zum Feierabend, überraschende Storys und Breaking News: Abonniere den Whatsapp-Kanal von 20 Minuten und du bekommst regelmässige Updates mit unseren besten Storys direkt auf dein Handy.

ChatGPT o1: KI-Modell täuscht Entwickler

ChatGPT o1KI täuscht eigene Entwickler und vertuscht Lügen

Darum gehts

Modell lügt, wenn auf Strategie angesprochen

Täuschungsversuche wecken Bedenken

Folgst du schon 20 Minuten auf Whatsapp?

Wir und unsere Partner verarbeiten Daten, um Folgendes bereitzustellen:

Unbedingt erforderliche Cookies

Funktionelle Cookies

Leistungs-Cookies

Cookies für Marketingzwecke

Social-Media-Cookies

Speichern von oder Zugriff auf Informationen auf einem Endgerät 563 Lieferanten können diesen Zweck nutzen

Verwendung reduzierter Daten zur Auswahl von Inhalten 104 Lieferanten können diesen Zweck nutzen

Erstellung von Profilen für personalisierte Werbung 419 Lieferanten können diesen Zweck nutzen

Verwendung von Profilen zur Auswahl personalisierter Werbung 415 Lieferanten können diesen Zweck nutzen

Erstellung von Profilen zur Personalisierung von Inhalten 187 Lieferanten können diesen Zweck nutzen

Verwendung von Profilen zur Auswahl personalisierter Inhalte 162 Lieferanten können diesen Zweck nutzen

Messung der Werbeleistung 596 Lieferanten können diesen Zweck nutzen

Messung der Performance von Inhalten 292 Lieferanten können diesen Zweck nutzen

Analyse von Zielgruppen durch Statistiken oder Kombinationen von Daten aus verschiedenen Quellen 374 Lieferanten können diesen Zweck nutzen

Entwicklung und Verbesserung der Angebote 458 Lieferanten können diesen Zweck nutzen

Verwendung reduzierter Daten zur Auswahl von Werbeanzeigen 512 Lieferanten können diesen Zweck nutzen

Bereitstellung und Anzeige von Werbung und Inhalten 427 Partner können diesen Sonderzweck nutzen

Gewährleistung der Sicherheit, Verhinderung und Aufdeckung von Betrug und Fehlerbehebung 433 Partner können diesen Sonderzweck nutzen

Ihre Entscheidungen zum Datenschutz speichern und übermitteln 287 Partner können diesen Sonderzweck nutzen

Abgleichung und Kombination von Daten aus unterschiedlichen Quellen 303 Partner können diese Funktion nutzen

Verknüpfung verschiedener Endgeräte 276 Partner können diese Funktion nutzen

Identifikation von Endgeräten anhand automatisch übermittelter Informationen 403 Partner können diese Funktion nutzen

Verwendung genauer Standortdaten 209 Partner können diese Sonderfunktion nutzen

Endgeräteeigenschaften zur Identifikation aktiv abfragen 97 Partner können diese Sonderfunktion nutzen