LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation
Human-hand demonstrations provide a direct and scalable source of physical interaction data for robot learning. While manual retargeting is indispensable for establishing kinematic action correspondence across different morphologies, robust transfer requires going beyond geometry to address the underlying alignment of physical dynamics between human and robot manipulation. To address this, we introduce LaST-HD, a novel human-to-robot action learning paradigm that extends reasoning-before-acting VLA by aligning human-hand and robot demonstrations in a shared latent reasoning space. Rather than mimicking human kinematics, LaST-HD trains an auxiliary action-conditioned world model on unpaired human-hand and robot trajectories to synthesize unified latent targets. After aligning cross-embodiment representations in this shared forward-dynamics space, these targets supervise LaST-HD's latent reasoning process, enabling it to internalize shared physical dynamics and drive efficient human-hand action learning. Moreover, we develop Out-of-Lab (OOL) Glove, a low-cost motion-capture glove tailored to LaST-HD for human-hand data collection. The captured human data provide precise keypoints and serve as universal action supervision across grippers and dexterous hands. Armed with the aligned latent space and high-fidelity human-hand data, we develop a progressive mixed-to-human training recipe comprising mixed human-robot co-training and human-hand online correction post-training. Through mixed co-training, LaST-HD improves generalization to novel objects, scenes, and positions using only human-hand demonstrations. With online correction, LaST-HD further adapts to novel environments and achieves over 90\% accuracy using only 20 minutes of OOL glove data.
Image: Daily English Reader / Local generated SVG (Project-owned local asset)
B2 Version
Click any word for its Thai meaning.
สรุป/คำแปลไทย
ข่าวนี้มาจาก arXiv อยู่ในหมวดเทคโนโลยี และถูกเรียบเรียงเป็นระดับ B2. เนื้อหาข่าวคือ การแสดงด้วยมือมนุษย์ ให้บริการเป็นแหล่งข้อมูลการปฏิสัมพันธ์ทางกายภาพโดยตรงและทำได้ปรับขนาดได้ สำหรับการเรียนรู้ของหุ่นยนต์. ขณะที่การตั้งเป้าหมายใหม่แบบมือถือเป็นสิ่งจําเป็นสำหรับการจัดตั้งความตรงกันของกิจกรรมทางการเคลื่อนไหวระหว่างมอร์ฟโลจีต่าง ๆ การถ่ายทอดที่แข็งแกร่งต้องข้ามไปนอกทางภูมิศาสตร์ เพื่อตอบสนองการสอดคล้องของไดนามิกทางกายภาพระหว่างการควบคุมของมนุษย์และหุ่นยนต์. เพื่อแก้ไขปัญหานี้ เรานําเสนอ LaST-HD เป็นแนวคิดการเรียนรู้การกระทำใหม่จากมนุษย์ไปยังหุ่นยนต์ ที่ขยายการคิดก่อนการกระทำ VLA โดยการสอดคล้องการแสดงมือมนุษย์และหุ่นยนต์. แทนที่จะเลียนแบบการเคลื่อนไหวของมนุษย์ LaST-HD ฝึกตัวอย่างโลกที่มีอัคชั่นการดําเนินการช่วยบนเส้นทางมือมนุษย์และหุ่นยนต์ที่ไม่มีคู่ เพื่อสังเคราะห์เป้าหมายที่ซับซ้อนรวม. หลังจากการจัดสรรตัวแทนข้ามตัวในพื้นที่ไดนามิกหน้าร่วมกันนี้ เป้าหมายเหล่านี้ดูแลกระบวนการคิดล้าท์ของ LaST-HD ทำให้มันทำได้ทำให้ไดนามิกฟิสิกส์ร่วมกันและขับเคลื่อนการเรียนรู้การกระทำมือมนุษย์ที่มีประสิทธิภาพ. นอกจากนี้ เรายังพัฒนา Glove Out-of-Lab (OOL) ถุงมือจับเคลื่อนไหวราคาถูก ที่ถูกปรับแต่งให้เป็น LaST-HD สำหรับการรวบรวมข้อมูลจากมือมนุษย์. ข้อมูลของมนุษย์ที่ถูกจับได้ ให้กับจุดสําคัญที่แม่นยํา และใช้งานเป็นการควบคุมการกระทำทั่วไป ผ่านมือจับและมือที่เก่ง. พร้อมกับอวกาศที่ซับซ้อนและข้อมูลจากมือมนุษย์ที่มีความซื่อสัตย์สูง เราพัฒนาสูตรการฝึกอบรมแบบผสมผสมกับมนุษย์.
Save & Review
Only words saved from this story appear here.