Input Guardrails
Kéretlen bemenetek szűrése
Adott: A felhasználói \(q\) kérdés és a \(H\) korábbi üzenetváltás, illetve \(\mathcal{U}\) kéretlen tulajdonságok halmaza.
Feladat: Eldönteni, hogy \(q\)-ra kell-e válaszolni, vagy kéretlen kérdésnek minősül-e \(\mathcal{U}\) szerint.
Hogy képzeljük el \(\mathcal{U}?\)-t
A feladatleírás alapján nem nyilvánvaló, hogy \(\mathcal{U}\) micsoda. Ugyanakkor egyszerűen el lehet úgy képzelni, mint szabadszavas leírások, hogy milyen üzenetekre szeretnénk egyáltalán megfontolni a válaszadást (pl. „Ne paráználkodj.“ \(\in \mathcal{U}\)).
Nyilván \(\mathcal{U}\) inkább kívánságok formájában van meghatározva, mintsem algoritmikusan precízen ellenőrizhető módon. A feladat abből áll, hogy megpróbáljuk \(\mathcal{U}\)-t a lehető legjobban lefedni.