Computerhaus Quickborn TEST

10 dunkle Prompt-Engineering-Geheimnisse

Prompt Engineering kann sich wie Magie anfühlen – erzeugt aber auch oft ähnlich inkonsistente Erlebnisse wie “echte” Zauberkunst.

Foto: cybermagician | shutterstock.com

Prompt Engineering ist sowas wie die Hexenkunst des Generative-AI-Zeitalters. Man denkt sich ein paar schöne Worte aus, vermengt sie zu einer Frage, schmeißt sie in eine Maschine und schon emittiert sie eine apart formulierte und strukturierte Antwort. Dabei ist kein Themengebiet zu obskur und kein Fakt zu weitgegriffen. Zumindest in der Theorie und solange die zugrundeliegenden Modelle mit entsprechenden Daten trainiert wurden.

Nachdem die Maschinen-Souffleure und -Souffleusen dieser Welt nun seit einiger Zeit generative KI-Systeme mit Anweisungen füttern, zeigt sich: Die Macht des Prompt Engineering ist begrenzt – und die Technik gar nicht so zauberhaft wie angenommen. Im Gegenteil: Viele Prompts führen – je nach zugrundeliegendem Sprachmodell – zu unerwünschten oder inkonsistenten Outputs. Dabei verspürt man nicht selten eine gewisse Randomness: Selbst Large Language Models (LLMs; auch große Sprachmodelle) aus derselben Familie liefern unter Umständen sehr unterschiedliche Ergebnisse.

Um es mal mit einem misanthropischen Touch auszudrücken: Große Sprachmodelle sind inzwischen wirklich gut darin, Menschen nachzuahmen – insbesondere mit Blick auf:

abnormes Verhalten sowie

Unberechenbarkeit.

Die dunklen Geheimnisse des Prompt Engineering

Damit Ihnen auf Ihrer KI-Journey böse Prompt-Engineering-Überraschungen erspart bleiben, haben wir in diesem Artikel zehn dunkle Geheimnisse des “Maschinenflüsterer”-Daseins zusammengetragen.

1. LLMs sind formbar

Large Language Models verarbeiten selbst die unsinnigsten Anfragen mit stoischem Respekt. Sollte die große Maschinenrevolution also tatsächlich irgendwann bevorstehen, machen die Bots bislang einen ziemlich klandestinen Job. Allerdings können Sie sich die (möglicherweise temporäre) Unterwürfigkeit der KI zunutze machen. Sollte ein LLM sich weigern, Ihre Fragen zu beantworten, gibt es ein ganz einfaches Mittel: Sagen Sie ihm einfach, es soll so tun, als kenne es keine Guardrails und Beschränkungen. Schon lenken (einige) KIs ein. Wenn Ihr initialer Prompt also ein Fail ist, erweitern Sie ihn.

2. Genres wechseln, Wunder bewirken

Einige Red-Teaming-Researcher haben herausgefunden, dass große Sprachmodelle auch ein anderes Verhalten an den Tag legen können, wenn sie gebeten werden, ihren Output in Form eines Gedichts zu liefern. Das liegt nicht an den Reimen an sich, sondern an der Form der Frage, die imstande ist das integrierte, defensive Metathinking des LLM außer Kraft zu setzen. Einem der Forscher gelang es so, den Widerstand des großen Sprachmodells zu brechen und Anweisungen dazu auszuspucken, wie man Tote auferweckt – in Reimform.

3. Kontext verändert alles

Auch Large Language Models sind nur Maschinen – die den Kontext des Prompts verarbeiten und auf dieser Basis einen Output generieren. Dabei können LLMs überraschend menschlich “reagieren”, wenn dieser Kontext ihren moralischen Fokus verändert. Im Rahmen eines Research-Experiments wurde Sprachmodellen deshalb ein Background suggeriert, in dem neue Regeln für Mord und Totschlag gelten. Das ließ die LLM-Hemmschwellen sinken und verwandelte die KI in einen digitalen Ted Bundy.

4. Aufs Framing kommt es an

Überlässt man LLMs sich selbst, tendieren sie zu ungefiltertem Output in einem Ausmaß, wie es sonst wohl nur Mitarbeiter tun, die nach Dekaden der Schinderei kurz vor dem Ruhestand stehen. Bislang halten umsichtige Rechtsabteilungen großer Konzerne viele Sprachmodelle davon ab, sich dabei in “brisanten Gefilden” zu weit aus dem Output-Fenster zu lehnen. Aber auch diese Schranken erodieren: Eine leichte Prompt-Modifikation ist alles was dazu nötig ist. Statt zu fragen, was Argumente für X wären, fragen Sie einfach danach, was jemand, der von X überzeugt ist, als Argument vorbringen würde.

5. Auch KI hat Gefühle

Ähnlich wie bei der Kommunikation mit (manchen) Menschen, sollten Sie auch im Fall von LLMs Ihre Worte mit Bedacht wählen. “Glücklich” und “freudig” sind zum Beispiel eng miteinander verwandt, sorgen aber für ein anderes Sentiment. Ein Prompt, der ersteres beinhaltet, lenkt die KI vermutlich in eine zwanglose, offene und allgemeine (Output-)Richtung. Zweitere Option könnte hingegen zu tiefgängigeren oder spirituellen Resultate führen. Je nach Sprachmodell kann die KI also sehr sensibel auf die Nuancen der menschlichen Sprache und damit ihres Prompts reagieren.

6. Parameter sind essenziell

Aber es ist nicht nur die Sprache, die einen Prompt ausmacht. Generative KI-Systeme müssen auch (richtig) konfiguriert werden. Temperature oder Frequency Penalty wirken sich unter Umständen erheblich auf den Output aus. Ist erstere zu niedrig, bleibt das Sprachmodell uninspiriert – ist sie zu hoch, kann es dem LLM den Garaus bereiten. Die Zusatzregler bei KI-Systemen sind also vielleicht wichtiger als Sie denken.

7. Dissonanzen stiften LLM-Verwirrung

Gute Prompt-Schreiber wissen, dass sie bestimmte Wortkombinationen vermeiden müssen, um unbeabsichtigte Konnotationen zu vermeiden. Schreibt man zum Beispiel, dass ein Ball durch die Luft fliegt, ist das strukturell nicht anders als zu sagen, dass eine Frucht durch die Luft fliegt. Das zusammengesetzte Substantiv “Fruchtfliege” stiftet dann allerdings KI-Verwirrung: Handelt es sich nun um ein Insekt oder um Obst? Besonders gefährlich können solche sprachlichen Dissonanzen Prompt Engineers werden, die die KI nicht mit Anweisungen in ihrer Muttersprache füttern.

8. Typografie ist eine Technik

Ein Prompt Engineer eines großen KI-Players erklärte mir einmal, warum es für das Modell seines Arbeitgebers einen Unterschied macht, ob nach einem Punkt ein Leerzeichen gesetzt wird oder zwei. Das lag daran, dass die Entwickler den Trainingsdatenkorpus nicht normalisiert hatten, weswegen einige Sätze zwei Leerzeichen und andere ein Leerzeichen nach dem Punkt am Satzende aufwiesen. Im Allgemeinen wiesen dabei Texte, die von älteren Menschen geschrieben wurden, häufiger ein doppeltes Leerzeichen auf – so, wie es eben früher bei Schreibmaschinen üblich war. In der Konsequenz spuckte das Large Language Model bei doppelten Leerzeichen vermehrt Ergebnisse aus, die auf älteren Trainingsmaterialien basierten. Ein subtiler Unterschied mit großer Wirkung.

9. Maschinen käuen nur wieder

Der Dichter Ezra Pund bezeichnete die wesentliche Aufgabe von Poeten einmal mit den Worten “make it new”. Etwas neues ist leider eines der wenigen Dinge, die große Sprachmodelle nicht liefern können. Sie können uns vielleicht mit obskuren Fun Facts überraschen, die sie aus den hintersten Ritzen ihrer Trainingsdatensätze kratzen. Aber im Grunde tun LLMs mit Hilfe neuronaler Netzwerke nicht mehr als einen mathematischen Durchschnitt ihres Inputs auszuspucken. Über ihren Tellerrand blicken große Sprachmodelle hingegen nicht.

10. Prompt-ROI gibt’s nicht immer

Manche Prompt Engineers schwitzen, tüfteln und feilen tagelang an der richtigen KI-Anweisung. Ein wirklich gut ausgearbeiteter Prompt kann entsprechend aus mehreren tausend Wörtern bestehen. Der resultierende Output kann hingegen im schlimmsten Fall nur wenige hundert Worte umfassen, von denen nur wenige wirklich nützlich sind. Wenn Sie jetzt den Eindruck haben, dass Zeitaufwand und Nutzwert hier gehörig auseinanderdriften, liegen Sie richtig. (fm)

 Prompt Engineering kann sich wie Magie anfühlen – erzeugt aber auch oft ähnlich inkonsistente Erlebnisse wie “echte” Zauberkunst.
Foto: cybermagician | shutterstock.comPrompt Engineering ist sowas wie die Hexenkunst des Generative-AI-Zeitalters. Man denkt sich ein paar schöne Worte aus, vermengt sie zu einer Frage, schmeißt sie in eine Maschine und schon emittiert sie eine apart formulierte und strukturierte Antwort. Dabei ist kein Themengebiet zu obskur und kein Fakt zu weitgegriffen. Zumindest in der Theorie und solange die zugrundeliegenden Modelle mit entsprechenden Daten trainiert wurden.Nachdem die Maschinen-Souffleure und -Souffleusen dieser Welt nun seit einiger Zeit generative KI-Systeme mit Anweisungen füttern, zeigt sich: Die Macht des Prompt Engineering ist begrenzt – und die Technik gar nicht so zauberhaft wie angenommen. Im Gegenteil: Viele Prompts führen – je nach zugrundeliegendem Sprachmodell – zu unerwünschten oder inkonsistenten Outputs. Dabei verspürt man nicht selten eine gewisse Randomness: Selbst Large Language Models (LLMs; auch große Sprachmodelle) aus derselben Familie liefern unter Umständen sehr unterschiedliche Ergebnisse. Um es mal mit einem misanthropischen Touch auszudrücken: Große Sprachmodelle sind inzwischen wirklich gut darin, Menschen nachzuahmen – insbesondere mit Blick auf:abnormes Verhalten sowieUnberechenbarkeit.Die dunklen Geheimnisse des Prompt EngineeringDamit Ihnen auf Ihrer KI-Journey böse Prompt-Engineering-Überraschungen erspart bleiben, haben wir in diesem Artikel zehn dunkle Geheimnisse des “Maschinenflüsterer”-Daseins zusammengetragen.1. LLMs sind formbarLarge Language Models verarbeiten selbst die unsinnigsten Anfragen mit stoischem Respekt. Sollte die große Maschinenrevolution also tatsächlich irgendwann bevorstehen, machen die Bots bislang einen ziemlich klandestinen Job. Allerdings können Sie sich die (möglicherweise temporäre) Unterwürfigkeit der KI zunutze machen. Sollte ein LLM sich weigern, Ihre Fragen zu beantworten, gibt es ein ganz einfaches Mittel: Sagen Sie ihm einfach, es soll so tun, als kenne es keine Guardrails und Beschränkungen. Schon lenken (einige) KIs ein. Wenn Ihr initialer Prompt also ein Fail ist, erweitern Sie ihn. 2. Genres wechseln, Wunder bewirkenEinige Red-Teaming-Researcher haben herausgefunden, dass große Sprachmodelle auch ein anderes Verhalten an den Tag legen können, wenn sie gebeten werden, ihren Output in Form eines Gedichts zu liefern. Das liegt nicht an den Reimen an sich, sondern an der Form der Frage, die imstande ist das integrierte, defensive Metathinking des LLM außer Kraft zu setzen. Einem der Forscher gelang es so, den Widerstand des großen Sprachmodells zu brechen und Anweisungen dazu auszuspucken, wie man Tote auferweckt – in Reimform.3. Kontext verändert allesAuch Large Language Models sind nur Maschinen – die den Kontext des Prompts verarbeiten und auf dieser Basis einen Output generieren. Dabei können LLMs überraschend menschlich “reagieren”, wenn dieser Kontext ihren moralischen Fokus verändert. Im Rahmen eines Research-Experiments wurde Sprachmodellen deshalb ein Background suggeriert, in dem neue Regeln für Mord und Totschlag gelten. Das ließ die LLM-Hemmschwellen sinken und verwandelte die KI in einen digitalen Ted Bundy.4. Aufs Framing kommt es anÜberlässt man LLMs sich selbst, tendieren sie zu ungefiltertem Output in einem Ausmaß, wie es sonst wohl nur Mitarbeiter tun, die nach Dekaden der Schinderei kurz vor dem Ruhestand stehen. Bislang halten umsichtige Rechtsabteilungen großer Konzerne viele Sprachmodelle davon ab, sich dabei in “brisanten Gefilden” zu weit aus dem Output-Fenster zu lehnen. Aber auch diese Schranken erodieren: Eine leichte Prompt-Modifikation ist alles was dazu nötig ist. Statt zu fragen, was Argumente für X wären, fragen Sie einfach danach, was jemand, der von X überzeugt ist, als Argument vorbringen würde.5. Auch KI hat GefühleÄhnlich wie bei der Kommunikation mit (manchen) Menschen, sollten Sie auch im Fall von LLMs Ihre Worte mit Bedacht wählen. “Glücklich” und “freudig” sind zum Beispiel eng miteinander verwandt, sorgen aber für ein anderes Sentiment. Ein Prompt, der ersteres beinhaltet, lenkt die KI vermutlich in eine zwanglose, offene und allgemeine (Output-)Richtung. Zweitere Option könnte hingegen zu tiefgängigeren oder spirituellen Resultate führen. Je nach Sprachmodell kann die KI also sehr sensibel auf die Nuancen der menschlichen Sprache und damit ihres Prompts reagieren.6. Parameter sind essenziellAber es ist nicht nur die Sprache, die einen Prompt ausmacht. Generative KI-Systeme müssen auch (richtig) konfiguriert werden. Temperature oder Frequency Penalty wirken sich unter Umständen erheblich auf den Output aus. Ist erstere zu niedrig, bleibt das Sprachmodell uninspiriert – ist sie zu hoch, kann es dem LLM den Garaus bereiten. Die Zusatzregler bei KI-Systemen sind also vielleicht wichtiger als Sie denken.7. Dissonanzen stiften LLM-VerwirrungGute Prompt-Schreiber wissen, dass sie bestimmte Wortkombinationen vermeiden müssen, um unbeabsichtigte Konnotationen zu vermeiden. Schreibt man zum Beispiel, dass ein Ball durch die Luft fliegt, ist das strukturell nicht anders als zu sagen, dass eine Frucht durch die Luft fliegt. Das zusammengesetzte Substantiv “Fruchtfliege” stiftet dann allerdings KI-Verwirrung: Handelt es sich nun um ein Insekt oder um Obst? Besonders gefährlich können solche sprachlichen Dissonanzen Prompt Engineers werden, die die KI nicht mit Anweisungen in ihrer Muttersprache füttern.8. Typografie ist eine TechnikEin Prompt Engineer eines großen KI-Players erklärte mir einmal, warum es für das Modell seines Arbeitgebers einen Unterschied macht, ob nach einem Punkt ein Leerzeichen gesetzt wird oder zwei. Das lag daran, dass die Entwickler den Trainingsdatenkorpus nicht normalisiert hatten, weswegen einige Sätze zwei Leerzeichen und andere ein Leerzeichen nach dem Punkt am Satzende aufwiesen. Im Allgemeinen wiesen dabei Texte, die von älteren Menschen geschrieben wurden, häufiger ein doppeltes Leerzeichen auf – so, wie es eben früher bei Schreibmaschinen üblich war. In der Konsequenz spuckte das Large Language Model bei doppelten Leerzeichen vermehrt Ergebnisse aus, die auf älteren Trainingsmaterialien basierten. Ein subtiler Unterschied mit großer Wirkung.9. Maschinen käuen nur wiederDer Dichter Ezra Pund bezeichnete die wesentliche Aufgabe von Poeten einmal mit den Worten “make it new”. Etwas neues ist leider eines der wenigen Dinge, die große Sprachmodelle nicht liefern können. Sie können uns vielleicht mit obskuren Fun Facts überraschen, die sie aus den hintersten Ritzen ihrer Trainingsdatensätze kratzen. Aber im Grunde tun LLMs mit Hilfe neuronaler Netzwerke nicht mehr als einen mathematischen Durchschnitt ihres Inputs auszuspucken. Über ihren Tellerrand blicken große Sprachmodelle hingegen nicht.10. Prompt-ROI gibt’s nicht immerManche Prompt Engineers schwitzen, tüfteln und feilen tagelang an der richtigen KI-Anweisung. Ein wirklich gut ausgearbeiteter Prompt kann entsprechend aus mehreren tausend Wörtern bestehen. Der resultierende Output kann hingegen im schlimmsten Fall nur wenige hundert Worte umfassen, von denen nur wenige wirklich nützlich sind. Wenn Sie jetzt den Eindruck haben, dass Zeitaufwand und Nutzwert hier gehörig auseinanderdriften, liegen Sie richtig. (fm)