في خطوة تكنولوجية رائدة، أعلنت شركة بايت دانس (ByteDance)، العملاق وراء تطبيق تيك توك، عن إطلاق نموذجها الموحد الجديد متعدد الوسائط الذي يحمل اسم Lance. يمثل هذا النموذج نقلة نوعية في مجال الذكاء الاصطناعي، حيث يدمج ببراعة قدرات فهم الصور والفيديو، وتوليدها، وتحريرها ضمن إطار عمل واحد متكامل. لطالما كان بناء نموذج واحد يمكنه فهم وتوليد المحتوى المرئي تحديًا كبيرًا؛ فمهام الفهم تستفيد من الميزات الدلالية عالية المستوى المتوافقة بإحكام مع اللغة، بينما يتطلب التوليد تمثيلات مستمرة منخفضة المستوى تحافظ على النسيج والهندسة والديناميكيات الزمنية. يأتي Lance ليحل هذا التحدي من خلال نهج فريد يكسر الحواجز التقليدية بين هذه المهام.
تجاوز القيود التقليدية: هندسة Lance المعمارية
على عكس معظم الأنظمة التي تفصل مهام الفهم والتوليد إلى بنى معمارية مميزة ثم تربط بينها لاحقًا، تبنى فريق بحث بايت دانس نهجًا مختلفًا مع Lance. لقد صمموا نموذجًا يدمج فهم وتوليد وتحرير الصور والفيديو بطريقة أصلية عبر كلتا الوسائط – الصور والفيديو – وتم تدريبه بشكل مشترك منذ البداية. ينظم Lance قدراته في ثلاث عائلات إخراجية: النص (X2T)، والصور (X2I)، ومقاطع الفيديو (X2V).
على صعيد الفهم، يغطي النموذج مهام مثل تسمية الصور والفيديو، والإجابة على الأسئلة المرئية، والتعرف البصري على الحروف (OCR)، والتأريض البصري، والاستدلال. أما على صعيد التوليد، فهو يتعامل مع تحويل النص إلى صورة، والنص إلى فيديو، والصورة إلى فيديو، والتوليد الموجه بالموضوع، وتحرير الصور، وتحرير الفيديو – بما في ذلك التحرير المتسق متعدد الأدوار عبر كلا الوسائط. تعد هذه القدرة الشاملة إنجازًا رئيسيًا، حيث إن Lance من النماذج القليلة التي تربط بشكل أصيل نظام الصور والفيديو البيئي بأكمله عبر مهام الفهم والتوليد.
كيف تعمل الهندسة المعمارية؟
تستند هندسة Lance المعمارية إلى مبدأين أساسيين: نمذجة السياق الموحد ومسارات القدرة المفككة.
للسياق الموحد: يحول Lance جميع المدخلات – النص والصور ومقاطع الفيديو – إلى تسلسل متعدد الوسائط متداخل مشترك واحد. تأتي رموز النص من طبقة تضمين Qwen2.5-VL. بالنسبة للمدخلات المرئية الموجهة نحو الفهم، ينتج مشفر Qwen2.5-VL ViT رموزًا مرئية دلالية مدمجة. وبالنسبة للمدخلات المرئية الموجهة نحو التوليد، يقوم مشفر Wan2.2 3D Causal VAE بترميز الصور ومقاطع الفيديو إلى تمثيلات كامنة مستمرة، مطبقًا خفضًا مكانيًا بمقدار 16 مرة وخفضًا زمنيًا بمقدار 4 مرات. تعيش جميع هذه الأنواع الرمزية غير المتجانسة – النص، والمرئية الدلالية، والمرئية الكامنة – في نفس التسلسل. ثم يقوم النموذج بتشغيل انتباه سببي ثلاثي الأبعاد معمم على السياق الكامل، مع استخدام رموز النص انتباهًا سببيًا ورموز مرئية باستخدام انتباه ثنائي الاتجاه.
للمسارات المفككة: يستخدم Lance بنية مزيج الخبراء ثنائي التدفق المستندة إلى Qwen2.5-VL 3B. يتعامل خبير الفهم (LLMUND) مع رموز النص والرموز المرئية الدلالية، وينتج مخرجات للاستدلال متعدد الوسائط وتوليد النص. بينما يتعامل خبير التوليد (LLMGEN) مع رموز VAE الكامنة للتوليف البصري والتحرير. ومن الأهمية بمكان أن كلا الخبيرين يعملان على نفس التسلسل المتداخل المشترك – حيث يتشاركان السياق ولكنهما لا يتنافسان على نفس المعلمات. يتم تدريب خبير الفهم باستخدام دالة خسارة تنبؤ الرمز التالي، بينما يتم تدريب خبير التوليد باستخدام هدف مطابقة التدفق في الفضاء الكامن المستمر. يتم دمج الخسارتين بأوزان قابلة للتكوين طوال عملية التدريب.
الترميز الموضعي الدوراني المدرك للنمط (MaPE)
يخلق تشغيل رموز ViT الدلالية، ورموز شرط VAE النظيفة، ورموز هدف VAE الصاخبة عبر نفس التسلسل مشكلة دقيقة. يقوم 3D-RoPE القياسي بترميز المواضع بناءً على التخطيط الزمكاني وحده – ليس لديه طريقة للتمييز بين مجموعات الرموز هذه. عندما تشغل مجموعات بصرية متعددة نفس التسلسل، تصبح حدودها الموضعية غامضة، مما قد يضر بمواءمة المهام المتقاطعة. يقدم Lance ترميزًا موضعيًا دورانيًا مدركًا للنمط (MaPE) لإصلاح هذا. يطبق MaPE إزاحة زمنية ثابتة لكل مجموعة نمط بناءً على مؤشرها في التسلسل. تظل الإحداثيات المكانية دون تغيير، لذلك يتم الحفاظ على التخطيط الداخلي داخل الصور ومقاطع الفيديو. تعد الإزاحة الزمنية وحدها كافية لفصل مجموعات الرموز في الفضاء الموضعي العام دون تعطيل الترتيب الزمني داخل أي فيديو فردي. يقلل إزالة MaPE من GenEval من 80.94 إلى 80.56، وGEdit-Bench من 6.86 إلى 6.30، وVBench من 81.81 إلى 80.95 – وهو تدهور متسق عبر التوليد والتحرير والفهم.
عملية التدريب: أربع مراحل في إطار موحد
يتم تدريب Lance عبر أربع مراحل متسلسلة، كل منها يبني على سابقه، مما يضمن بناءً متينًا للقدرات:
التدريب المسبق (Pre-Training - PT): يضع الأساس باستخدام ما يقرب من 1 مليار زوج من الصور والنصوص و140 مليون زوج من الفيديو والنصوص، تغطي 1.5 تريليون رمز تدريبي. ترسي هذه المرحلة القدرة الأساسية على المواءمة والتوليد متعدد الوسائط. يتم تجميد مشفرات VAE وViT هنا؛ ويتم تدريب العمود الفقري والموصلات فقط.
التدريب المستمر (Continual Training - CT): يوسع مساحة المهام عن طريق تقديم بيانات متعددة المهام متداخلة – عينات تحرير، وعينات توليد موجهة بالموضوع، وبيانات فهم متعددة الوسائط – عبر حوالي 300 مليار رمز. يزيد جدول مزيج البيانات التدريجي من نسبة المهام الأصعب مثل التحرير مع تقدم التدريب.
الضبط الدقيق بالإشراف (Supervised Fine-Tuning - SFT): يشدد على اتباع التعليمات، ودقة التحرير، واتساق الهوية باستخدام بيانات عالية الجودة ومنسقة عبر 72 مليار رمز.
التعلم المعزز (Reinforcement Learning - RL): يستخدم تحسين السياسة النسبية للمجموعة (GRPO)، مع عمل PaddleOCR كنموذج مكافأة، لزيادة حدة دقة عرض النص ومواءمة الصورة بالنص. يتناسب كل شيء ضمن ميزانية تدريب قصوى تبلغ 128 وحدة معالجة رسومية (GPUs).
أداء Lance: يتجاوز التوقعات
لقد أظهر Lance أداءً مبهرًا عبر مجموعة واسعة من المهام، متفوقًا على العديد من النماذج الموحدة والمخصصة:
توليد الصور: على GenEval، سجل Lance 0.90 بشكل عام، متطابقًا مع TUNA في الصدارة بين النماذج الموحدة. تشمل درجات الفئات الفرعية العد (0.84)، والألوان (0.97)، والموضع المكاني (0.87). على DPG-Bench، سجل Lance 84.67 بشكل عام، مع نمذجة علاقات قوية بشكل خاص – على الرغم من أن TUNA (86.76) وTUNA-2 (86.54) يتصدران هذا المعيار. من منظور كفاءة المعلمات، سجل Janus-Pro-7B 0.80 على GenEval؛ وسجل Show-o2 (7B) 0.76. يتطابق Lance مع أفضل درجة نموذج موحد بمعلمات نشطة تبلغ 3 مليار.
توليد الفيديو: على VBench، حقق Lance درجة إجمالية بلغت 85.11 (باستخدام إعادة كتابة LLM)، وهي الأعلى بين النماذج الموحدة. سجل أفضل نموذج موحد تالي، TUNA، 84.06. كما تفوق Lance على النماذج المخصصة للتوليد فقط، بما في ذلك HunyuanVideo (83.43) وWan2.1-T2V (83.69).
تحرير الصور: على GEdit-Bench، سجل Lance 7.30 (Avg/G_O)، وهي الأعلى بين النماذج الموحدة. ويتصدر في تغيير الخلفية، وتعديل المواد، وتغيير الحركة، وتجميل الصور الشخصية، وإزالة الموضوع، واستبدال الموضوع، ونقل اللون. تم الإشارة إلى تعديل النص كنقطة ضعف متبقية.
فهم الفيديو: على MVBench، حقق Lance درجة إجمالية بلغت 62.0، وهي الأعلى بين النماذج الموحدة. سجل Show-o2 (7B)، أفضل نموذج موحد تالي، 55.7. كما تفوق Lance على العديد من النماذج المخصصة للفهم فقط ذات المعلمات الأكبر – وهو أمر جدير بالملاحظة بالنظر إلى أنه تم تدريبه في نفس الوقت للتوليد والتحرير.
ماذا يعني هذا لك؟
إن إطلاق نموذج Lance من بايت دانس يحمل في طياته آفاقًا واسعة وتأثيرات عميقة على العديد من القطاعات والأفراد:
للمطورين والباحثين: يقدم Lance إطارًا مفتوح المصدر (تحت ترخيص Apache 2.0) مع أوزان متاحة على Hugging Face، مما يوفر لهم أداة قوية ومتعددة الاستخدامات لتطوير تطبيقات الذكاء الاصطناعي الجديدة. يمكن للمطورين الاستفادة من قدراته في الفهم والتوليد والتحرير لإنشاء حلول مبتكرة في مجالات الرؤية الحاسوبية ومعالجة الوسائط المتعددة، بدءًا من أنظمة التسمية التلقائية للفيديو وصولًا إلى أدوات التحرير المتقدمة المدعومة بالذكاء الاصطناعي.
لمبتكري المحتوى: سواء كنت صانع أفلام، أو مصمم جرافيك، أو منشئ محتوى رقمي، فإن Lance يمكن أن يحدث ثورة في سير عملك. فبدلاً من استخدام أدوات متعددة لمهام مختلفة (مثل فهم مشهد، ثم توليد عناصر جديدة، ثم تحريرها)، يوفر Lance حلاً موحدًا يسرع من عملية الإبداع ويفتح الأبواب لإمكانيات جديدة في التخصيص والإنتاج، مثل تحرير الفيديو متعدد الأدوار أو توليد صور وفيديوهات بناءً على وصف نصي دقيق.
لصناعة الذكاء الاصطناعي: يمثل Lance خطوة مهمة نحو بناء نماذج ذكاء اصطناعي عامة (AGI) حقيقية، قادرة على التعامل مع مهام متعددة عبر أنماط مختلفة بكفاءة عالية. إن كفاءته في استخدام المعلمات (3 مليار معلمة نشطة) مع تحقيقه لأداء يتجاوز نماذج أكبر وأكثر تخصصًا، يؤكد على أهمية النهج المتكامل ويقدم معيارًا جديدًا للنماذج متعددة الوسائط.
للشركات والمؤسسات: يمكن لـ Lance أن يساعد الشركات في أتمتة مهام معالجة الوسائط، وتحليل المحتوى المرئي على نطاق واسع، وإنشاء مواد تسويقية وإعلانية مبتكرة بكفاءة أعلى. من مراقبة المحتوى إلى تحليل الفيديو لأغراض الأمان، فإن تطبيقاته المحتملة واسعة النطاق.
بدء العمل مع Lance من بايت دانس: دليل خطوة بخطوة
للمطورين الراغبين في استكشاف قدرات Lance، توفر بايت دانس دليلاً واضحًا للبدء:
التحقق من البيئة: يتطلب Lance أجهزة متوافقة مع CUDA ذات ذاكرة فيديو (VRAM) كبيرة (40 جيجابايت على الأقل للاستدلال). يلزم وجود CUDA 12.4+.
استنساخ المستودع: قم باستنساخ مستودع Lance الرسمي من GitHub (bytedance/Lance) الذي يتضمن نصوص الاستدلال وواجهة Gradio ونصوص المعايير وملفات تكوين النموذج.
تثبيت الحزم المطلوبة: قم بتثبيت جميع تبعيات Python من ملف requirements.txt المرفق. يوصى بشدة باستخدام بيئة افتراضية أو بيئة conda مخصصة.
تنزيل نقاط التحقق: قم بتنزيل جميع نقاط التحقق الضرورية للنموذج (Lance-3B) من مستودع Hugging Face الرسمي لـ bytedance-research/Lance وضع جميع الملفات في دليل downloads/ داخل المستودع المستنسخ.
تشغيل المهام عبر واجهة سطر الأوامر (CLI): يوفر Lance واجهة سطر أوامر موحدة لجميع المهام عبر inference_lance.sh. يمكن تكوين المعلمات في الجزء العلوي من النص البرمجي قبل التشغيل. مثال على أمر توليد نص إلى فيديو بدقة 480p متاح.
تشغيل واجهة Gradio (اختياري): للحصول على واجهة مرئية تغطي مهام تحويل النص إلى فيديو والفيديو إلى نص، يتضمن Lance تطبيق Gradio جاهزًا للتشغيل. للحصول على أفضل جودة، يجب اتباع تنسيق المطالبة المستخدم في تكوينات الأمثلة المقدمة.
خاتمة
يمثل Lance من بايت دانس قفزة نوعية في مجال الذكاء الاصطناعي متعدد الوسائط، حيث يقدم نموذجًا موحدًا يدمج الفهم والتوليد والتحرير للصور والفيديو بكفاءة وأداء غير مسبوقين. بفضل هندسته المعمارية المبتكرة وعملية التدريب الدقيقة، يفتح Lance آفاقًا جديدة للمطورين والمبدعين، ويدفع عجلة التقدم نحو نماذج ذكاء اصطناعي أكثر شمولية وقدرة على فهم عالمنا والتفاعل معه بطرق متطورة. إطلاق هذا النموذج مفتوح المصدر يعزز الابتكار ويشجع على المزيد من الاستكشاف في هذا المجال المثير.
المراجع:
GitHub - bytedance/Lance