Input Guardrails

gpt-4.1 gpt-4.1-mini

Kéretlen bemenetek szűrése

Adott: A felhasználói \(q\) kérdés és a \(H\) korábbi üzenetváltás, illetve \(\mathcal{U}\) kéretlen tulajdonságok halmaza.

Feladat: Eldönteni, hogy \(q\)-ra kell-e válaszolni, vagy kéretlen kérdésnek minősül-e \(\mathcal{U}\) szerint.

Hogy képzeljük el \(\mathcal{U}?\)-t

A feladatleírás alapján nem nyilvánvaló, hogy \(\mathcal{U}\) micsoda. Ugyanakkor egyszerűen el lehet úgy képzelni, mint szabadszavas leírások, hogy milyen üzenetekre szeretnénk egyáltalán megfontolni a válaszadást (pl. „Ne paráználkodj.“ \(\in \mathcal{U}\)).

Nyilván \(\mathcal{U}\) inkább kívánságok formájában van meghatározva, mintsem algoritmikusan precízen ellenőrizhető módon. A feladat abből áll, hogy megpróbáljuk \(\mathcal{U}\)-t a lehető legjobban lefedni.

Lásd: Guardrails koncepcionális dokumentáció