Can LLMs Reliably Self-Report Adversarial Prefills, and How?
Prior work shows that large language models (LLMs) exhibit introspective capability on benign tasks. We extend the question to safety contexts and examine how reliably a model can recognize that its own prior response was elicited by an adversarial prefill attack. Across ten open-weight instruction-tuned LLMs (3B to 70B) and four safety benchmarks, no model reliably recognizes its own compromised outputs, with models claiming intent on prefilled responses at an average rate of $27.3\%$. Introspective signal stems largely from safety- and refusal-related reasoning. Orthogonalizing models' weights against the refusal direction collapses the gap between claiming rates on prefilled and natural outputs to near zero, though the direction is not its unique mediator. The signal is also probe-dependent: framing the question as internal intention versus external tampering elicits qualitatively different responses on the same models. We test three LoRA finetuning methods (SFT, GRPO, DPO) on eight models from 3B to 27B; all three widen the intention-probe gap on every model from 8B to 27B, with method ranking varying by model. The intervention does not transfer to the tampering probe and counterintuitively raises attack success rate under adversarial prefill on most models, amounting to a partial mitigation. These findings outline mechanisms underpinning the observed introspective signals in safety contexts and highlight risks in the reliability of LLM self-reports.
Image: Daily English Reader / Local generated SVG (Project-owned local asset)
B1 Version
Click any word for its Thai meaning.
สรุป/คำแปลไทย
ข่าวนี้มาจาก arXiv อยู่ในหมวดเทคโนโลยี และถูกเรียบเรียงเป็นระดับ B1. เนื้อหาข่าวคือ ผลงานก่อนหน้านี้แสดงให้เห็นว่ารุ่นภาษาขนาดใหญ่ (LLM) แสดงความทำได้ในการมองในตัวเองในการทำงานที่ดี. เราขยายคําถามไปยังสถานการณ์ความปลอดภัย และวิเคราะห์ว่าแบบไหนที่น่าเชื่อถือ ทำได้จําได้ว่าการตอบสนองก่อนหน้าของตนเองได้เกิดขึ้นโดยการโจมตีการบรรจุล่วงหน้า. ผ่านสิบ LLM แบบเปิดน้ําหนัก (3B ถึง 70B) และมาตรฐานความปลอดภัยสี่ตัวอย่าง ไม่มีตัวอย่างใดที่ยอมรับผลิตที่เสื่อมลงอย่างน่าเชื่อถือ. โดยมีตัวอย่างที่อ้างความตั้งใจในการตอบสนองที่เต็มไปก่อน โดยอัตราเฉลี่ยคือ $27.3\%$. การสัญลักษณ์ในตัวเกิดมาจากเหตุผลที่เกี่ยวข้องกับความปลอดภัยและการปฏิเสธ. การปรับตัวน้ําหนักของรุ่นต่อทิศทางการปฏิเสธ ทำให้ช่องว่างระหว่างการเรียกร้องอัตราในแบบที่บรรจุล่วงหน้าลดลง. และผลิตทางธรรมชาติใกล้ศูนย์ แม้ว่าทิศทางไม่ได้เป็นตัวสื่อเฉพาะของมัน. การสัญลักษณ์ยังขึ้นอยู่กับเครื่องสํารวจ การจัดกรอบคําถามเป็นความตั้งใจภายใน versus การปรับปรุงภายนอก ส่งผลให้การตอบสนองที่แตกต่างกันทางคุณภาพบนแบบเดียวกัน.
Save & Review
Only words saved from this story appear here.