وتصف إنفيديا كوزموس 3 بأنه أول نموذج شامل مفتوح بالكامل في العالم، حيث يمكنه معالجة وإنشاء نصوص وصور وفيديوهات وأصوات بيئية وأفعال بدقة فيزيائية رائدة، مما يقلل من أوقات تدريب أنظمة الذكاء الاصطناعي الفيزيائية.

الاستعداد للذكاء الاصطناعي الفيزيائي
تشير شركة ماكينزي إلى أن تقنيات الروبوتات على وشك عبور الفجوة من المحاكاة إلى الواقع العملي. وتضيف أن الروبوتات تعمل الآن في بيئات ديناميكية تتطلب التكيف والاستقلالية.
وتؤكد إنفيديا أن كوزموس 3 يمكّن الروبوتات والمركبات ذاتية القيادة ووكلاء الرؤية من العمل في العالم الحقيقي باستخدام بيانات تدريب محدودة ومكدسات محاكاة متقطعة.

بنية النموذج
تتكون بنية كوزموس 3 من محول استدلال متخصص ومحول توليد خبير. يتيح هذا المزيج للنموذج معالجة تفاعلات الأجسام والحركة والعلاقات الزمانية المكانية قبل إنتاج مسارات فيديو وأفعال.
محتوى منصة كوزموس
تحتوي منصة كوزموس الآن على مجموعات بيانات جديدة للروبوتات والفيزياء والحركة البشرية وسائق السيارات الآلية وسلامة المستودعات والاستدلال المكاني. كما تتضمن مهارات جديدة لوكيل الذكاء الاصطناعي الفيزيائي تشمل إعادة بناء المشهد العصبي، وتوليد صور العيوب، وتعزيز الفيديو.

توقعات الصناعة
تشير شركة ديلويت إلى أن تكامل قدرات الذكاء الاصطناعي في أنظمة الروبوتات وظهور نماذج أساسية متخصصة سيمكن الروبوتات من التوسع عبر صناعات متعددة، بما في ذلك المصانع الذكية. وتتوقع الشركة أن يصل إجمالي سعة الروبوتات الصناعية المثبتة إلى 5.5 مليون وحدة بحلول عام 2026 على مستوى العالم.
قدرات الاستدلال متعدد الوسائط
يقول جنسن هوانغ، مؤسس والرئيس التنفيذي لشركة إنفيديا: "إن الانفجار الكبير للذكاء الاصطناعي الفيزيائي على وشك الحدوث بفضل التقدم في نماذج اللغة والرؤية والعالم متعددة الوسائط." ويضيف: "توفر عائلة كوزموس 3 من النماذج الشاملة المفتوحة قفزة نوعية للمطورين لبناء الروبوتات والمركبات ذاتية القيادة وأنظمة الرؤية التي تدرك وتستنتج وتخطط وتتصرف في العالم الفيزيائي."
وتشير إنفيديا إلى أن كوزموس 3 سوبر، جزء من المجموعة، مصمم للنماذج المتقدمة للروبوتات والمركبات ذاتية القيادة التي تتطلب أعلى دقة فيزيائية وجودة توليد. ويمكن للنظام توليد بيانات اصطناعية وتغيرات في المشهد، ثم دعم التدريب اللاحق ببيانات سلوك وبيئة محددة Embodiment، لمهام تتراوح من التقاط ووضع الأشياء إلى التعامل الدقيق.
يمكن للمطورين نشر كوزموس 3 كنموذج لغة رؤية أو作为 backbone لنماذج أفعال العالم. كما يعمل النظام كنموذج عالم أو نموذج أساس للفيديو، محاكيً للبيئات الفيزيائية ويتنبأ بالحالات المستقبلية للعالم لأغراض التدريب والتقييم.
نماذج اعتماد الصناعة
يستخدم مطورو الذكاء الاصطناعي الفيزيائي منصة كوزموس عبر صناعات متعددة. وتشمل الشركات العاملة في الروبوتات: Agile Robots، وDoosan Robotics، وLG Electronics، وSamsung Electronics، وSkild AI. وتستخدم Li Auto المنصة للمركبات ذاتية القيادة. بينما تعتمد شركات مثل Centific، وFogsphere، وLinker Vision، وMilestone Systems، وYuan على المنصة لوكيل الذكاء الاصطناعي البصري لتمكين تطبيقات الذكاء الاصطناعي الصناعي والمساحات الذكية.
أعلنت إنفيديا عن كوزموس 3 بالتزامن مع إطلاق تحالف كوزموس، وهو تعاون عالمي بين باني نماذج العالم ومطوري الذكاء الاصطناعي. وتشمل الأعضاء Agile Robots، وBlack Forest Labs، وGeneralist، وLTX، وRunway، وSkild AI. ووفقًا لإنفيديا، سيعمل التحالف على تطوير نماذج العالم المفتوحة عبر الصناعات، حيث يمكن للأعضاء المساهمة بالنماذج والأبحاث وتقنيات التقييم باستخدام تقنيات كوزموس 3.