Qwen-RobotSuite: ثورة في عالم الروبوتات الذكية بثلاثة نماذج

Qwen-RobotSuite: ثورة في عالم الروبوتات الذكية بثلاثة نماذج للذكاء الاصطناعي المجسد

في خطوة هامة نحو مستقبل الروبوتات المستقلة، أعلن فريق Qwen عن إطلاق مجموعة Qwen-RobotSuite، وهي حزمة تضم ثلاثة نماذج متطورة للذكاء الاصطناعي المجسد. تهدف هذه النماذج الرائدة، والتي تحمل أسماء Qwen-RobotManip و Qwen-RobotWorld و Qwen-RobotNav، إلى معالجة تحديات جوهرية في مجالات التحكم بالروبوتات، ونمذجة العالم المرئي، والملاحة. تشكل هذه المجموعة نقلة نوعية في قدرة الروبوتات على التفاعل مع بيئاتها وفهمها والتنقل فيها بكفاءة غير مسبوقة.

Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation

تأتي هذه النماذج، التي بنيت كل منها على أساس قوي من نماذج Qwen للرؤية واللغة، لتوفر حلولاً مبتكرة لمشكلة تجزئة البيانات في عالم الروبوتات. فغالباً ما تعاني الروبوتات المختلفة من تنسيقات ملاحظة وإجراءات غير متوافقة، مما يجعل نقل السياسات المدربة من ذراع روبوتية إلى أخرى أمراً صعباً. تسعى Qwen-RobotSuite لتوحيد هذه الجهود وفتح آفاق جديدة لتطوير الروبوتات.

مجموعة Qwen-RobotSuite تقدم نماذج ذكاء اصطناعي مجسد متكاملة للروبوتات.

Qwen-RobotManip: إتقان التلاعب بالروبوتات

Qwen-RobotManip هو نموذج أساسي للرؤية-اللغة-العمل (VLA) مصمم خصيصًا لمهام التلاعب. يعتمد النموذج على بنية Qwen-VL ويتنبأ بإجراءات الروبوت المستمرة. التحدي الأكبر في التلاعب بالروبوتات يكمن في طبيعة البيانات غير المتجانسة؛ حيث تسجل الروبوتات المختلفة الحالات والإجراءات بتنسيقات غير متوافقة. يحل RobotManip هذه المشكلة من خلال "إطار عمل محاذاة موحد" يتضمن ثلاثة آليات متكاملة.

تتضمن الآليات تمثيلاً قياسياً للحالة-العمل مكوناً من 80 بُعداً مع إخفاء ثنائي الأبعاد، ومعايرة وضع دلتا في إطار الكاميرا، وآلية تكييف للسياسة في السياق. هذه الابتكارات تمكّن الروبوتات المختلفة من مشاركة نموذج واحد بشكل فعال، مما يسهل توسيع نطاق بيانات التلاعب. قام RobotManip بجمع ما يقرب من 38,100 ساعة من بيانات التلاعب، باستخدام مجموعات بيانات مفتوحة المصدر ومقاطع فيديو بشرية فقط، مع الاستفادة من خط أنابيب لتوليف البيانات من الإنسان إلى الروبوت.

تثبت قدرات RobotManip تفوقها في اختبارات النقل عبر الأجسام المختلفة، حيث حقق 23.9% باستخدام إجراءات EEF في إطار الكاميرا، وهو ما يعادل 3.2 مرة أداء أفضل النماذج المنافسة. كما احتل المركز الأول في مسار التخصص العام RoboChallenge Table30-v1، محققاً تحسناً نسبياً بنسبة 20% على الأداء الأفضل السابق. وقد تم التحقق من صحة النموذج على منصات روبوتية حقيقية مثل AgileX ALOHA و Franka و UR و ARX.

Qwen-RobotWorld: اللغة كواجهة عالمية للتفاعل

يعد Qwen-RobotWorld نموذجاً عالمياً للفيديو يعتمد على اللغة، ويتنبأ بالمسارات البصرية المستقبلية من ملاحظة حالية. يميز هذا النموذج استخدام اللغة الطبيعية كواجهة عمل موحدة، مما يجعله محايداً للأجسام المختلفة. بعبارة أخرى، يمكن لتعليمات واحدة أن ترمّز تسلسل الإجراءات، الهدف، والقيود، وتعمل عبر نظام Franka gripper أو نظام Aloha ذي الذراعين المزدوجتين أو حتى روبوت شبيه بالبشر.

يعتمد النموذج على بنية محول انتشار متعدد الوسائط (MMDiT) مزدوجة التدفق مكونة من 60 طبقة، ويحتوي على 20 مليار معلمة. يستخدم بيانات "مجموعة بيانات معرفة العالم المجسد" (EWK) التي تحتوي على ما يقرب من 8.6 مليون زوج من مقاطع الفيديو والنصوص، وتغطي أكثر من 200 مليون إطار ملاحظة عبر أربعة نطاقات مجسدة بالإضافة إلى الفيديو العام. وقد أظهر RobotWorld أداءً متفوقاً في المعايير الأربعة التي تم تقييمه عليها، حيث احتل المرتبة الأولى في اثنين منها، مسجلاً دقة حركة رائدة على EWMBench ودرجة مثالية على WorldModelBench في فئات الالتزام بقوانين الفيزياء.

Qwen-RobotNav: ملاحة ذكية وواجهة تحكم قابلة للتخصيص

Qwen-RobotNav هو نموذج ملاحة قابل للتطوير مبني على Qwen3-VL. يعيد هذا النموذج صياغة الملاحة متعددة المهام كنمذجة سياق الملاحظة، ويكشف عن واجهة معلمية للتحكم الخارجي. الملاحة تتضمن العديد من عائلات المهام مثل اتباع التعليمات، والملاحة نحو نقطة هدف، والبحث عن الأشياء، وتتبع الهدف، والقيادة، وكل منها يتطلب استراتيجية مختلفة لاستهلاك البث البصري. يعالج RobotNav هذا التنوع من خلال واجهة مرنة تسمح بتكييف سلوك الملاحة.

تصيغ الواجهة جميع المهام على أنها تنبؤ بمسار نقاط الطريق، متوقعة 8 نقاط طريق، كل منها بوضع ثنائي الأبعاد واتجاه. تمكن هذه الواجهة من اختيار أوضاع المهام وتخصيص معلمات الملاحظة مثل ميزانية الرموز المرئية والتضاؤل الزمني. تم تدريب RobotNav على 15.6 مليون عينة، وشكلت بيانات مسار الملاحة 85% من هذا التدريب. يمثل النموذج جزءاً أساسياً من "نظام وكيل" (Agentic System) حيث يقوم مخطط عالي المستوى (Qwen3.6-Plus) بتفكيك الأهداف طويلة الأمد إلى أهداف فرعية، ويعمل RobotNav كمنفذ رد الفعل.

حقق النظام الوكيلي الذي يتضمن RobotNav نتائج متفوقة في أحدث التقنيات في الإجابة على الأسئلة المجسدة (Embodied Question Answering)، حيث تحسن بنسبة 10.8% على HM-EQA وبنسبة 15.4% على EXPRESS-Bench مع تقليل خطوات الملاحة بنسبة 77%. كما يتعامل النموذج مع القيادة الذاتية، ويحقق 91.4 PDMS على NAVSIM، مما يبرز مرونته وقابليته للتطوير.

ماذا يعني هذا لك؟

تُعد مجموعة Qwen-RobotSuite تطوراً بالغ الأهمية لكل من الباحثين والمطورين والشركات العاملة في مجال الروبوتات. فهي توفر حلولاً موحدة لتحديات كانت تعيق تقدم الروبوتات المستقلة. بالنسبة للمطورين، تعني هذه النماذج القدرة على بناء روبوتات أكثر ذكاءً وقدرة على التكيف مع بيئات مختلفة، مع تقليل التعقيدات الناجمة عن تجزئة البيانات.

بالنسبة للشركات، تفتح RobotSuite الأبواب أمام تطبيقات جديدة في التصنيع والخدمات اللوجستية والرعاية الصحية، حيث يمكن للروبوتات تنفيذ مهام معقدة تتطلب دقة وتكيفاً في بيئات غير منظمة. كما أنها تسهم في تسريع البحث العلمي من خلال توفير أدوات قوية لإنشاء البيانات الاصطناعية (عبر RobotWorld) واختبار السياسات الروبوتية بكفاءة قبل النشر على الأجهزة الفعلية. هذه النماذج تعد بتسريع وتيرة الابتكار في مجال الذكاء الاصطناعي المجسد بشكل كبير.

الخاتمة

تمثل مجموعة Qwen-RobotSuite علامة فارقة في مسيرة تطوير الروبوتات الذكية. من خلال نماذج RobotManip و RobotWorld و RobotNav، يقدم فريق Qwen حلاً شاملاً للتحديات الرئيسية في التلاعب، وفهم العالم، والملاحة. هذه النماذج لا تعمل فقط على تحسين أداء الروبوتات في مهام محددة، بل تضع الأساس لأنظمة روبوتية أكثر استقلالية وذكاءً وقدرة على التكيف في مجموعة واسعة من التطبيقات الواقعية. إن توحيد واجهات العمل والبيانات، وتقديم قدرات نمذجة عالمية متطورة، يعزز بشكل كبير من إمكانات الروبوتات في خدمة البشرية وفتح آفاق لمستقبل تعيش فيه الروبوتات بانسجام أكبر مع بيئاتنا.

Badr Ai