Learning Action Priors for Cross-embodiment Robot Manipulation
Most Vision-Language-Action (VLA) models build on a Vision-Language Model (VLM) backbone by attaching an action module and optimizing the full policy jointly. This design inherits strong visual and linguistic priors from the VLM, but leaves the action module to learn physical motion almost from scratch. As a result, the policy lacks an explicit motion prior, forcing early optimization to simultaneously discover temporal action dynamics and cross-modal alignment, a challenge further amplified in cross-embodiment settings. In this work, we propose to pretrain the action module with motion priors before cross-modal VLA alignment. Specifically, we introduce a two-stage training framework that equips the action module with cross-embodiment temporal motion structure before VLA training begins. In Stage~1, a lightweight flow-matching-based encoder-decoder action module efficiently learns temporal motion structure solely from unconditioned action trajectories, without processing visual or language tokens. In Stage~2, this learned prior is transferred to VLA training through decoder reuse and early-stage latent distillation, aligning visual-language features with the action embedding space while still allowing end-to-end policy refinement. In addition, the trained encoder serves as a compact history compressor, summarizing state-action histories into a single temporal context token for history-aware modeling at negligible cost. Extensive experiments across 13 diverse cross-embodiment tasks on both simulated and real-world platforms validate the effectiveness of our approach. Compared with VLA training without action priors, our model achieves faster convergence, higher success rates, and substantially stronger performance on data-scarce real-world tasks. Moreover, scaling up the action data in Stage~1 yields a more generalizable action prior that directly improves downstream VLA performance.
Image: Daily English Reader / Local generated SVG (Project-owned local asset)
B2 Version
Click any word for its Thai meaning.
สรุป/คำแปลไทย
ข่าวนี้มาจาก arXiv อยู่ในหมวดเทคโนโลยี และถูกเรียบเรียงเป็นระดับ B2. เนื้อหาข่าวคือ
โมเดล Vision-Language-Action (VLA) ส่วนใหญ่พัฒนาขึ้นบนกระดูกสันหลังแบบ Vision-Language Model (VLM) โดยติดตั้งโมเดลการกระทำและประกอบนโยบายทั้งหมดร่วมกัน. การออกแบบนี้ได้รับมรดกภาพและภาษาที่แข็งแกร่งจาก VLM แต่ทิ้งโมดูลการกระทำเพื่อเรียนรู้การเคลื่อนไหวทางกายภาพเกือบตั้งแต่ต้น. ผลก็คือนโยบายนี้ไม่มีการเคลื่อนไหวที่ชัดเจนก่อนหน้านี้ ซึ่งบังคับให้การอุดมสมัยก่อนที่จะค้นพบไดนามิกการกระทำระยะเวลาและการสอดคล้องข้ามโหมดพร้อมกัน.
ในงานนี้ เราเสนอให้ฝึกฝนก่อนโมดูลการกระทำด้วยการเคลื่อนไหวก่อนหน้าการสอดคล้อง VLA ระหว่างโมดูล. โดยเฉพาะอย่างยิ่ง เรานําเสนอกรอบการฝึกอบรมสองระยะ ซึ่งช่างโหลดการกระทำด้วยโครงสร้างการเคลื่อนไหวระยะเวลาข้ามตัว ก่อนที่การฝึกอบรม VLA จะเริ่มต้น. ในระยะ ~ 1 โมดูลการกระทำแบบ encoder-decoder based lightweight flow matching จะเรียนรู้กระบวนการเคลื่อนไหวเวลาได้อย่างมีประสิทธิภาพโดยเฉพาะจากเส้นทางการกระทำที่ไม่มีเงื่อนไข โดยไม่ต้องแปรรูปเทคนิคภาพหรือภาษา.
ในระยะ ~ 2 การเรียนรู้ก่อนหน้านี้ถูกถ่ายทอดไปสู่การอบรม VLA ผ่านการใช้ซ้ําของ decoder และการดิสติเลชั่นลับในระยะแรก การสอดคล้องคุณสมบัติของภาษาภาพกับพื้นที่การดําเนินการขณะที่ยังอนุญาตให้มีการปรับปรุงนโยบายจากปลายไปยังปลาย.
Save & Review
Only words saved from this story appear here.