RouterVLA: Turning Smoke Tests into Supervision for Heterogeneous VLA Selection
We study whether pre-deployment evaluation rollouts can be reused to supervise policy selection. Robot teams routinely smoke test candidate vision-language-action (VLA) policies, then compress those trials into a global winner. RouterVLA evaluates this idea with outcome-disjoint cross-fitting: recorded probes build a profile for each frozen expert, and a separate trial scores the selected expert without entering its profile. Across 34,752 LIBERO-Plus rollout records, a transparent probe-success rule raises held-out success from 0.4686 to 0.6149, a +14.64pp gain. Under the scalar-only profiles studied here, learned scorers are statistically indistinguishable from this rule, showing that commissioning carries the routing value while extra scalar scorer capacity does not create it. Reusing the scored trial inflates the measured gain by $1.87\times$, so credible ledger routing needs outcome separation; model scaling improves individual policies, while commissioning-aware routing improves the system built from them.
Image: Daily English Reader / Local generated SVG (Project-owned local asset)
B1 Version
Click any word for its Thai meaning.
สรุป/คำแปลไทย
ข่าวนี้มาจาก arXiv อยู่ในหมวดเทคโนโลยี และถูกเรียบเรียงเป็นระดับ B1. เนื้อหาข่าวคือ
เราศึกษาว่าการลงประเมินก่อนการจัดจําหน่ายทำได้นําไปใช้อีกครั้งเพื่อควบคุมการเลือกนโยบายหรือไม่. ทีมหุ่นยนต์จะสูบบุหรี่นโยบายการทดสอบผู้สมัครการใช้ภาษาสายตา (VLA) แล้วสับซ้อนการทดลองเหล่านั้นให้เป็นผู้ชนะทั่วโลก. RouterVLA ประเมินแนวคิดนี้ ด้วยการสับสอดแบบแยกผล การบันทึกสํารวจสร้างโปรแกรมสำหรับผู้เชี่ยวชาญที่แข็งตัว.
และการทดลองที่แยกแยก จะให้คะแนนให้กับผู้เชี่ยวชาญที่ได้รับการเลือก โดยไม่เข้าสู่โปรไฟล์. ผ่านสถิติการเปิดตัวของ LIBERO-Plus 34,752 รายการ กฎความสําเร็จของสํารวจที่โปร่งใสเพิ่มความสําเร็จจาก 0.4686 เป็น 0.6149 รายการ การเพิ่ม +14.64pp. ภายใต้โครงการที่วิจัยที่นี่เพียงแค่สกัลเลอร์ นักคะแนนที่เรียนรู้เป็นสถิติไม่แตกต่างจากกฎนี้ แสดงว่าการใช้งานมีค่าการส่งทาง.
ขณะที่ความทำได้ในการทำคะแนนเพิ่มเติม Scalar ไม่ได้สร้างมัน. การใช้งานใหม่ของการทดลองที่ได้รับคะแนนจะทำให้ผลประโยชน์ที่วัดเพิ่มขึ้นถึง $1.87 \times $ ดังนั้นการเชื่อถือสมุดใหญ่ต้องแยกผลการออกแบบ การปรับขนาดแบบจะปรับปรุงนโยบายแต่ละคน. ขณะที่การใช้บริการโดยรู้สึ้ง ทำให้ระบบที่สร้างมาจากมันดีขึ้น.
Save & Review
Only words saved from this story appear here.