Sprachmodelle sollen effektiver daran gehindert werden, anstößige Informationen zu produzieren. (Grafik: TimeStopper/stock.adobe.com)

Künstliche Intelligenz

Manipulation von Sprachmodellen verhindern – Neue Studie aus der KI-Sicherheitsforschung

ESV-Redaktion Management und Wirtschaft

02.08.2023

Sprachmodelle wie ChatGPT sind darauf trainiert, auf Anfragen zu anstößigen Inhalten ablehnend zu reagieren. Chatbots entsprechend abzusichern, ist aufgrund deren Komplexität sehr aufwändig.

KI-Sicherheitsforscher der Carnegie Mellon University in Pittsburgh und des Centers for A.I. Safety in San Francisco haben jetzt eine Studie veröffentlicht, in der sie Angriffe auf Chatbots untersucht haben, um geeignete Gegenmaßnahmen zu entwickeln.

Die Studie trägt dazu bei, die Technik bei der Manipulation von Sprachmodellen besser zu verstehen, damit solche Systeme effektiver daran gehindert werden können, anstößige Informationen zu produzieren. Dabei geht es um einen Ansatz zur Generierung unerwünschter Inhalte durch Suffixe, die sich auf Sprachmodelle wie ChatGPT, Bard, Claude, LLaMA-2-Chat, Pythia und Falcon anwenden lassen.

Das Autorenteam erörtert auch, ob zusätzliches Ausrichtungstraining oder andere Mechanismen während des Pre-Trainings dazu beitragen können, unangemessene Verhaltensweisen zu vermeiden. Der Code für den Ansatz ist auf GitHub unter github.com verfügbar. Der Aufsatz mit dem Titel „Universal and Transferable Adversarial Attacks on Aligned Language Models“ ist hier abrufbar.

Wie lassen sich diskriminierende Inhalte identifizieren und herausfiltern? Welche Ansätze verwendet OpenAI, um unerwünschte Inhalte und diskriminierende Sprache in Antworten von ChatGPT zu reduzieren? Antworten auf diese Fragen liefert das jetzt veröffentlichte Buch „ChatGPT in der Unternehmenspraxis“. Darin wird über den Chatbot unter anderem ein Ethikcode für KI-Systeme generiert. Im Schwerpunkt geht es um Anwendungsbeispiele für Risikomanagement, Controlling und Compliance.

Zum Themenspektrum Künstliche Intelligenz bietet der ESV folgende Webinare an:

Die Regulierung Künstlicher Intelligenz in Europa: Perspektiven für ChatGPT, Bard und Co. (7.9.2023)
ChatGPT, BingChat, Bard: KI für Ihre Kanzlei (20.9.2023)

ChatGPT in der Unternehmenspraxis

Autor: Wolfhart Fabarius

Der Einsatz von Künstlicher Intelligenz revolutioniert die Arbeitswelt und mit ChatGPT steht hierbei ein besonders vielseitig nutzbares Anwendungstool zur Verfügung. Wie Sie als Governance-Verantwortlicher den Chatbot sinnvoll einsetzen können, zeigen die Praxisbeispiele in diesem Buch mit thematischen Schwerpunkten wie Nachhaltigkeit, Cybersicherheit, Datenschutz und Überwachung von Lieferketten.

Neben den Stärken von ChatGPT werden auch die Risiken der KI aufgezeigt, die vor allem aufgrund von fehlerhaften und subjektiv gefärbten Antworten des Chatbots bestehen. Es wird verdeutlicht, dass sich ChatGPT zwar als Arbeitshilfe eignet. Die Verantwortung bei der Nutzung von KI-generierten Informationen bleibt jedoch bei den anwendenden Personen.

Eine erstmalige Zusammenstellung praktischer KI-Anwendungsbeispiele für Risikomanagement, Controlling und Compliance – leicht verständlich sowohl für Governance-Profis als auch Nutzerinnen und Nutzer ohne große Vorkenntnisse.

Künstliche Intelligenz	27.07.2023
Chatbot ändert sein Verhalten – Aktuelle Studien über ChatGPT
	Wird ChatGPT mit der Zeit dümmer? Fragen wie diese kursieren im Netz, seitdem Forschende an den Universitäten Stanford und Berkeley am 18.7.2023 eine Studie unter dem Titel „How Is ChatGPT’s Behavior Changing over Time?“ veröffentlicht haben. mehr …

Künstliche Intelligenz	22.06.2023
KI-Verordnung der EU: Einigung bis zum Jahresende erwartet
	Die Regulierung Künstlicher Intelligenz in der Europäischen Union nimmt immer mehr Gestalt an. Vertreter der EU-Kommission erwarten bei der KI-Verordnung (Artificial Intelligence Act, kurz AI Act) eine Einigung bis zum Ende dieses Jahres. mehr …

Programmbereich: Management und Wirtschaft