مختبر Mira Murati يكشف عن نماذج تفاعل تُحدث ثورة في تعاون

تُعد معظم أنظمة الذكاء الاصطناعي الحالية، سواء كانت نماذج لغوية كبيرة (LLMs) أو واجهات برمجة تطبيقات (APIs) صوتية، على نحو تقليدي أنظمة قائمة على الأدوار. يعني ذلك أن المستخدم يقدم مدخلاً كاملاً، ثم ينتظر النموذج ليقوم بمعالجته وتقديم استجابة. هذا النمط من التفاعل، الذي يتميز بالانتظار والمعالجة المنفصلة، يشكل عنق الزجاجة الأساسي الذي يعيق التعاون السلس والفعال بين الإنسان والذكاء الاصطناعي. ومع إدراك هذه القيود الجوهرية، كشف مختبر Thinking Machines Lab، وهو مختبر أبحاث رائد في مجال الذكاء الاصطناعي تقوده Mira Murati، مؤخرًا عن معاينة بحثية لفئة جديدة من الأنظمة يطلق عليها اسم "نماذج التفاعل" (Interaction Models)، والتي تهدف إلى إعادة تعريف جوهر التفاعل بين الإنسان والذكاء الاصطناعي من خلال جعل التفاعلية جزءًا أصيلًا من النموذج نفسه، وليس مجرد إضافة لاحقة.

Mira Murati's Thinking Machines Lab Introduces Interaction Models: A Native Multimodal Architecture for Real-Time Human-AI Collaboration

يهدف هذا التطور إلى تجاوز النموذج التقليدي الذي يعيق قدرة الذكاء الاصطناعي على فهم السياق البشري الغني والتفاعل معه بشكل طبيعي. في جوهره، تسعى نماذج التفاعل إلى محاكاة الطريقة التي يتفاعل بها البشر في المحادثات الواقعية، حيث يتم تبادل المعلومات بشكل مستمر ومتعدد الوسائط وفي الوقت الفعلي، دون الحاجة إلى انتظار كل طرف لإكمال "دوره" بشكل كامل.

القصور في أنظمة الذكاء الاصطناعي التقليدية

إن التفاعل القائم على الأدوار في أنظمة الذكاء الاصطناعي يعاني من عدة عيوب جوهرية. فالنموذج لا يمتلك أي وعي بما يحدث أثناء قيام المستخدم بالكتابة أو التحدث. لا يمكنه ملاحظة توقفك في منتصف الجملة، أو إدراك مدخلات كاميرا الويب الخاصة بك، أو التفاعل مع شيء مرئي في الوقت الفعلي. وبالمثل، أثناء قيام النموذج بالإنشاء، يكون أعمى بنفس القدر؛ فقدرته على الإدراك تتجمد حتى ينتهي أو يتم مقاطعته.

يخلق هذا قناة ضيقة للتعاون بين الإنسان والذكاء الاصطناعي، مما يحد من مقدار المعرفة، النية، والحكم الذي يمكن أن يصل إلى النموذج، ويحد أيضًا من مقدار عمل النموذج الذي يمكن فهمه. وللتغلب على هذا، تستخدم معظم أنظمة الذكاء الاصطناعي في الوقت الفعلي "حزمة" (harness) – وهي مجموعة من المكونات المنفصلة التي يتم ربطها معًا لمحاكاة الاستجابة. أحد الأمثلة الشائعة هو اكتشاف نشاط الصوت (VAD)، الذي يتنبأ بانتهاء المستخدم من التحدث حتى يعرف النموذج القائم على الأدوار متى يبدأ في الإنشاء.

تتكون هذه الحزمة من مكونات أقل ذكاءً بكثير من النموذج نفسه، وتمنع قدرات مثل التفاعلات المرئية الاستباقية، والتحدث أثناء الاستماع، أو الاستجابة لإشارات لا تُصرح بها علنًا. يرى مختبر Thinking Machines Lab أن هذه الأنظمة المصممة يدويًا ستتجاوزها في النهاية القدرات العامة القابلة للتطوير. لكي تتوسع التفاعلية مع الذكاء، يجب أن تكون جزءًا من النموذج نفسه. بهذا النهج، فإن توسيع النموذج يجعله أكثر ذكاءً وشريكًا أفضل للتعاون.

بنية ثورية: تصميم متعدد التدفقات والخطوات الدقيقة

يعتمد نظام نماذج التفاعل على مكونين يعملان بالتوازي، وهما أساس هذه البنية المبتكرة:

النموذج التفاعلي (Interaction Model): هذا النموذج يعمل بشكل مستمر، حيث يتلقى المدخلات الصوتية والمرئية والنصية وينتج الاستجابات في الوقت الفعلي. هو المسؤول عن الحفاظ على التبادل المستمر مع المستخدم، وإدارة تدفق المحادثة، والتعامل مع المقاطعات، وتقديم الاستجابات الفورية.
نموذج الخلفية (Background Model): يتولى هذا النموذج مهام التفكير الأعمق والمعالجة غير المتزامنة، مثل استخدام الأدوات (tool use)، والبحث عبر الويب، والتخطيط على المدى الطويل. عندما تتطلب مهمة معينة تفكيرًا مستدامًا، يقوم النموذج التفاعلي بتفويضها إلى نموذج الخلفية عن طريق إرسال حزمة سياق غنية تحتوي على المحادثة الكاملة، وليس مجرد استعلام مستقل.

تتدفق النتائج من نموذج الخلفية عند إنتاجها، ويقوم النموذج التفاعلي بدمج هذه التحديثات في المحادثة في اللحظة المناسبة لما يفعله المستخدم حاليًا، بدلاً من التبديل المفاجئ للسياق. يشارك كلا النموذجين سياقهما باستمرار، مما يضمن تدفقًا سلسًا للمعلومات. تخيل الأمر كشخص يبقيك منخرطًا في المحادثة بينما يبحث زميل في الخلفية عن شيء ما ويمرر الملاحظات إليك في الوقت الفعلي.

القرار المعماري الأساسي الذي يمكّن هذا التفاعل هو "الخطوات الدقيقة المتزامنة زمنيًا" (time-aligned micro-turns). حيث يقوم النموذج التفاعلي بتبادل مستمر لمعالجة مدخلات لمدة 200 مللي ثانية مع توليد مخرجات لمدة 200 مللي ثانية. بدلاً من استهلاك دور كامل للمستخدم وتوليد استجابة كاملة، يتم التعامل مع كل من المدخلات والمخرجات كتدفقات تتم معالجتها في أجزاء زمنية تبلغ 200 مللي ثانية. وهذا ما يسمح للنموذج بالتحدث أثناء الاستماع، والتفاعل مع الإشارات البصرية دون الحاجة إلى توجيه لفظي، والتعامل مع الكلام المتزامن الحقيقي، وإجراء استدعاءات الأدوات (tool calls) وتصفح الويب بينما لا تزال المحادثة جارية، ودمج النتائج فور وصولها.

كما يتضمن التصميم التقني المتطور "الدمج المبكر الخالي من التشفير" (encoder-free early fusion) الذي يجعل المعالجة متعددة الوسائط تعمل بهذه الوتيرة. بدلاً من توجيه الصوت والفيديو عبر مُشفرات مُدربة مسبقًا وكبيرة (مثل نموذج ASR بأسلوب Whisper أو مُشفّر TTS مستقل)، تستخدم البنية الحد الأدنى من المعالجة المسبقة. تُستوعب الإشارات الصوتية كـ dMel وتُحول عبر طبقة تضمين خفيفة الوزن. تُقسم إطارات الفيديو إلى رقع بحجم 40×40 تُشفّر بواسطة hMLP. ويستخدم إخراج الصوت رأس تدفق (flow head) لفك التشفير. يتم تدريب جميع المكونات من الصفر مع المُحولات (transformer) – ولا يوجد مُشفّر أو مُفكك تشفير مُدرب مسبقًا في أي مرحلة.

من ناحية الاستدلال (inference)، يثير تصميم أجزاء الـ 200 مللي ثانية تحديات هندسية. حيث إن مكتبات استدلال LLM الحالية ليست مُحسَّنة للتعبئات الصغيرة المتكررة – فهي تحمل عبئًا كبيرًا لكل دور. نفّذت Thinking Machines Lab "جلسات التدفق" (streaming sessions)، حيث يرسل العميل كل جزء 200 مللي ثانية كطلب منفصل بينما يقوم خادم الاستدلال بإلحاق الأجزاء في تسلسل دائم في ذاكرة GPU، متجنبًا إعادة تخصيص الذاكرة المتكررة وحسابات البيانات الوصفية. وقد قاموا بتوفير نسخة من هذا لـ SGLang، وهو إطار عمل الاستدلال مفتوح المصدر. بالإضافة إلى ذلك، يستخدمون استراتيجية gather+gemv لأنوية MoE بدلاً من gemm المجمع القياسي، باتباع العمل السابق من PyTorch و Cursor، لتحسين الأشكال الحساسة للكمون المطلوبة للخدمة ثنائية الاتجاه.

قدرات لا مثيل لها: تجربة تفاعلية طبيعية

بفضل أن التفاعلية جزء أصيل من النموذج، فإن السلوكيات التالية مدمجة فيه وليست مجرد ميزات مضافة:

الكلام المتزامن (Simultaneous speech): القدرة على التحدث والاستماع في نفس الوقت (مثلاً، الترجمة الفورية من الإسبانية إلى الإنجليزية أثناء التحدث).
المقاطعات اللفظية (Verbal interjections): يمكن للنموذج أن يقاطع الحديث في منتصف الجملة بناءً على السياق، وليس فقط عندما تتوقف عن الكلام.
الاستباقية البصرية (Visual proactivity): يتفاعل النموذج مع ما يراه على الكاميرا دون أن تتحدث (مثلاً، عد تمارين الضغط، أو الإشارة إلى خطأ برمجي يراه).
الوعي الزمني (Time-awareness): يتتبع النموذج الوقت المنقضي ويمكنه بدء الكلام في لحظات محددة من قبل المستخدم.
استخدام الأدوات المتزامن (Concurrent tool use): يبحث في الويب، ويستدعي الأدوات (tool calls)، ويولد واجهات المستخدم (UI) بينما لا تزال المحادثة جارية.
إدارة الحوار السلس (Seamless dialog management): يتتبع التوقفات، التصحيحات الذاتية، وإشارات الإنهاء دون الحاجة إلى مكون VAD منفصل.

نتائج الأداء والمعايير الجديدة

يُعد النموذج الذي تم اختباره، والذي يُطلق عليه اسم TML-Interaction-Small، نموذج "مزيج من الخبراء" (MoE) بـ 276 مليار مُعامل (parameter) مع 12 مليار مُعامل نشط. وقد أظهرت الاختبارات المعيارية تفوقًا واضحًا لهذا النموذج، خاصة مقارنة بالنماذج الفورية الأخرى التي لا تعتمد على التفكير الموسع.

Audio MultiChallenge APR: حقق TML-Interaction-Small أعلى نتيجة بين جميع النماذج الفورية في المقارنة، بنسبة 43.4%، متفوقًا على GPT-realtime-2.0 (الإصدار الأساسي) الذي سجل 37.6%، و GPT-realtime-1.5 بنسبة 34.7%، و Gemini-3.1-flash-live-preview (الإصدار الأساسي) بنسبة 26.8%.
FD-bench v1.5 (جودة التفاعل): والذي يقيس جودة التفاعل في سيناريوهات مقاطعة المستخدم، والتغذية الراجعة، والحديث مع الآخرين، والكلام في الخلفية، سجل TML-Interaction-Small متوسط جودة 77.8، مقارنة بـ 54.3 لـ Gemini-3.1-flash-live (الإصدار الأساسي)، و 48.3 لـ GPT-realtime-1.5، و 47.8 لـ GPT-realtime-2.0 (xhigh).
FD-bench v1 (زمن الاستجابة): في قياس زمن استجابة تولي الأدوار، استجاب النموذج في 0.40 ثانية، مقارنة بـ 0.57 ثانية لـ Gemini، و 0.59 ثانية لـ GPT-realtime-1.5، و 1.18 ثانية لـ GPT-realtime-2.0 (الإصدار الأساسي).
FD-bench v3 (جودة الاستجابة واستخدام الأدوات): مع تمكين وكيل الخلفية، سجل TML-Interaction-Small 82.8% في جودة الاستجابة و 68.0% في Pass@1، وهي أعلى النتائج في جدول المقارنة.

كما قدم فريق أبحاث Thinking Machines Lab معايير داخلية جديدة تستهدف القدرات التي لا تتعامل معها أي نماذج حالية بشكل فعال، حيث أظهر TML-Interaction-Small أداءً مذهلاً:

TimeSpeak: اختبار ما إذا كان النموذج يبدأ الكلام في أوقات يحددها المستخدم بمحتوى صحيح. TML: 64.7% دقة كلية مقابل 4.3% لـ GPT-realtime-2.0 (الإصدار الأساسي).
CueSpeak: اختبار ما إذا كان النموذج يستجيب للإشارات اللفظية في اللحظة الصحيحة. TML: 81.7% مقابل 2.9%.
RepCount-A: اختبار العد البصري للإجراءات المادية المتكررة في بيئة تدفق. TML: 35.4% دقة تقريبية مقابل 1.3%.
ProactiveVideoQA: اختبار ما إذا كان النموذج يجيب على سؤال في اللحظة الدقيقة التي يصبح فيها الجواب متاحًا بصريًا في فيديو متدفق. TML: 33.5% PAUC@ω=0.5 مقابل 25.0% (الخط الأساسي لعدم الاستجابة).
Charades: يُطلب من النموذج أن يقول "ابدأ" و "توقف" عندما يبدأ وينتهي إجراء ما في فيديو متدفق. TML: 32.4% mIoU مقابل 0 لـ GPT-realtime-2.0 (الإصدار الأساسي) – صفر واضح.

حتى الآن، لا يمكن لأي نموذج حالي أداء أي من هذه المهام بشكل فعال باستثناء TML-Interaction-Small.

ماذا يعني هذا لك؟

إن تقديم نماذج التفاعل لا يمثل مجرد تقدم تقني، بل هو تحول جوهري في كيفية تفاعلنا مع أنظمة الذكاء الاصطناعي. بالنسبة للمستخدمين، يعني هذا تجربة أكثر طبيعية، بديهية، وفعالية، حيث يصبح الذكاء الاصطناعي شريكًا حقيقيًا في الحوار بدلاً من مجرد أداة تستجيب للأوامر.

تخيل تطبيقات مثل المساعدين الافتراضيين الذين يمكنهم فهم نبرة صوتك، وتعبيرات وجهك، وحتى الإيماءات، والتفاعل معك كما لو كنت تتحدث إلى إنسان آخر. هذا يفتح الأبواب أمام ابتكارات غير مسبوقة في مجالات خدمة العملاء، التعليم، الرعاية الصحية، وحتى الترفيه، حيث يمكن للذكاء الاصطناعي أن يندمج بسلاسة أكبر في حياتنا اليومية.

مع أن نماذج التفاعل تبشر بمستقبل واعد، يظل هناك بعض التحديات التي يعمل عليها مختبر Thinking Machines Lab:

إدارة السياق: تتراكم مدخلات الصوت والفيديو المستمرة بسرعة، مما يتطلب إدارة دقيقة للسياق في الجلسات الطويلة جدًا.
الاتصال بالإنترنت: يتطلب التدفق على أجزاء 200 مللي ثانية اتصالاً موثوقًا بالإنترنت؛ فالاتصالات الضعيفة يمكن أن تؤثر سلبًا على التجربة.
حجم النموذج وسرعته: على الرغم من وجود نماذج مُدربة مسبقًا أكبر حجمًا، إلا أنها بطيئة جدًا حاليًا لتعمل في الوقت الفعلي.
الأسئلة البحثية الجديدة: يفتح التفاعل في الوقت الفعلي أسئلة بحثية جديدة حول محاذاة الذكاء الاصطناعي والأخلاقيات.

التحديات والآفاق المستقبلية

في مايو 2026، أتاح مختبر Thinking Machines Lab معاينة بحثية محدودة لجمع التعليقات، مع خطة لإطلاق أوسع لاحقًا في عام 2026. يدعو المختبر الباحثين والمهندسين للمساهمة في تطوير معايير وأطر تقييم جديدة لجودة التفاعلية، وهو مجال يعتبرونه غير مستغل بما يكفي. هذا النهج التعاوني يعكس التزام المختبر بدفع حدود الذكاء الاصطناعي نحو مستقبل حيث يصبح التفاعل بين الإنسان والآلة سلسًا وذكيًا بنفس قدر التفاعلات البشرية.

إن نماذج التفاعل تمثل قفزة نوعية في مسار تطور الذكاء الاصطناعي، وتعد بتمكين جيل جديد من التطبيقات التي تزيل الحواجز بين البشر والآلات، وتطلق العنان لإمكانيات غير محدودة للتعاون والابتكار في الوقت الفعلي.

Badr Ai