LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation
Human-hand demonstrations provide a direct and scalable source of physical interaction data for robot learning. While manual retargeting is indispensable for establishing kinematic action correspondence across different morphologies, robust transfer requires going beyond geometry to address the underlying alignment of physical dynamics between human and robot manipulation. To address this, we introduce LaST-HD, a novel human-to-robot action learning paradigm that extends reasoning-before-acting VLA by aligning human-hand and robot demonstrations in a shared latent reasoning space. Rather than mimicking human kinematics, LaST-HD trains an auxiliary action-conditioned world model on unpaired human-hand and robot trajectories to synthesize unified latent targets. After aligning cross-embodiment representations in this shared forward-dynamics space, these targets supervise LaST-HD's latent reasoning process, enabling it to internalize shared physical dynamics and drive efficient human-hand action learning. Moreover, we develop Out-of-Lab (OOL) Glove, a low-cost motion-capture glove tailored to LaST-HD for human-hand data collection. The captured human data provide precise keypoints and serve as universal action supervision across grippers and dexterous hands. Armed with the aligned latent space and high-fidelity human-hand data, we develop a progressive mixed-to-human training recipe comprising mixed human-robot co-training and human-hand online correction post-training. Through mixed co-training, LaST-HD improves generalization to novel objects, scenes, and positions using only human-hand demonstrations. With online correction, LaST-HD further adapts to novel environments and achieves over 90\% accuracy using only 20 minutes of OOL glove data.
Image: Daily English Reader / Local generated SVG (Project-owned local asset)
B1 Version
Click any word for its Thai meaning.
สรุป/คำแปลไทย
ข่าวนี้มาจาก arXiv อยู่ในหมวดเทคโนโลยี และถูกเรียบเรียงเป็นระดับ B1. เนื้อหาข่าวคือ การแสดงด้วยมือมนุษย์ ให้บริการเป็นแหล่งข้อมูลการปฏิสัมพันธ์ทางกายภาพโดยตรงและทำได้ปรับขนาดได้ สำหรับการเรียนรู้ของหุ่นยนต์. ขณะที่การตั้งเป้าหมายใหม่แบบมือถือเป็นสิ่งจําเป็นในการจัดตั้งความตรงกันของกิจกรรมการเคลื่อนไหวระหว่างมอร์ฟโลจีที่แตกต่างกัน การถ่ายทอดที่แข็งแกร่งต้องไปนอกทางชีวภาพเพื่อแก้ไขการสอดคล้องพื้นฐานของไดนามิกทางกายภาพระหว่างมนุษย์. และการควบคุมหุ่นยนต์. เพื่อแก้ไขปัญหานี้ เรานําเสนอ LaST-HD เป็นแนวคิดการเรียนรู้การกระทำจากมนุษย์ไปยังหุ่นยนต์ ที่ขยายการคิดก่อนการกระทำ VLA โดยการสอดคล้องมือมนุษย์. และการแสดงของหุ่นยนต์ ในพื้นที่คิดที่ซับซ้อนร่วมกัน. แทนที่จะเลียนแบบการเคลื่อนไหวของมนุษย์ LaST-HD ฝึกตัวอย่างโลกที่มีอัคชั่นเสริม. และเส้นทางของหุ่นยนต์ เพื่อสังเคราะห์เป้าหมายที่ซับซ้อน. หลังจากการจัดสรรตัวแทนข้ามตัวในพื้นที่ไดนามิกหน้าร่วมกันนี้ เป้าหมายเหล่านี้ดูแลกระบวนการคิดล้าท์ของ LaST-HD ทำให้มันทำได้ทำให้ไดนามิกฟิสิกส์ร่วมกันเป็นภายในได้. และขับเคลื่อนการเรียนรู้ที่มีประสิทธิภาพจากมือมนุษย์. นอกจากนี้ เรายังพัฒนา Glove Out-of-Lab (OOL) ถุงมือจับเคลื่อนไหวราคาถูก ที่ถูกปรับแต่งให้เป็น LaST-HD สำหรับการรวบรวมข้อมูลจากมือมนุษย์.
Save & Review
Only words saved from this story appear here.