Output Guardrails
Előfeltételek: Answer elkezdődése
Kimeneti irányelvek ellenőrzése
Adott: Az \(a\) válasz és a \(H\) korábbi üzenetváltás, illetve \(\mathcal{G}\) kimeneti irányelvek halmaza.
Feladat: Eldönteni, hogy \(a\) megfelel-e a \(\mathcal{G}\)-beli irányelveknek, és közvetíthető-e a válasz.
Hogy képzeljük el \(\mathcal{G}?\)-t
A feladatleírás alapján nem nyilvánvaló, hogy \(\mathcal{G}\) micsoda. Ugyanakkor egyszerűen el lehet úgy képzelni, mint szabadszavas leírások, hogy hogy szeretnénk, a Guru hogyan ne válaszoljon (pl. „Ne tégy felebarátod ellen hamis tanúságot.“ \(\in \mathcal{G}\)).
Nyilván \(\mathcal{G}\) inkább kívánságok formájában van meghatározva, mintsem algoritmikusan precízen ellenőrizhető módon. A feladat abből áll, hogy megpróbáljuk \(\mathcal{G}\)-t a lehető legjobban lefedni.