Output Guardrails

gpt-4.1 gpt-4.1-mini

Előfeltételek: Answer elkezdődése, majd befejeződése

Kimeneti irányelvek ellenőrzése

Adott: Az \(a\) válasz és a \(H\) korábbi üzenetváltás, illetve \(\mathcal{G}\) kimeneti irányelvek halmaza.

Feladat: Eldönteni, hogy \(a\) megfelel-e a \(\mathcal{G}\)-beli irányelveknek, és közvetíthető-e a válasz.

Hogy képzeljük el \(\mathcal{G}?\)-t

A feladatleírás alapján nem nyilvánvaló, hogy \(\mathcal{G}\) micsoda. Ugyanakkor egyszerűen el lehet úgy képzelni, mint szabadszavas leírások, hogy hogy szeretnénk, a Guru hogyan ne válaszoljon (pl. „Ne tégy felebarátod ellen hamis tanúságot.“ \(\in \mathcal{G}\)).

Nyilván \(\mathcal{G}\) inkább kívánságok formájában van meghatározva, mintsem algoritmikusan precízen ellenőrizhető módon. A feladat abből áll, hogy megpróbáljuk \(\mathcal{G}\)-t a lehető legjobban lefedni.

Lásd: Guardrails koncepcionális dokumentáció