نظام KAME من Sakana AI يدمج السرعة والذكاء في المحادثات الصوتية.

ابتكار Sakana AI: نظام KAME يدمج ذكاء LLM الفوري مع سرعة الكلام المباشر

لطالما واجه الذكاء الاصطناعي للمحادثة تحديًا أساسيًا: الاختيار بين الاستجابة السريعة أو الاستجابة الذكية. فالمساعدون الصوتيون الذين يقدمون تجربة طبيعية غالبًا ما يبدأون التحدث فورًا، لكن إجاباتهم قد تكون سطحية. في المقابل، الأنظمة المتسلسلة التي تمرر الكلام عبر نماذج اللغة الكبيرة (LLMs) توفر معرفة أعمق، ولكن تأخير المعالجة يجعل المحادثة تبدو متقطعة وغير طبيعية. اليوم، تقدم شركة Sakana AI، المختبر الياباني الرائد في مجال الذكاء الاصطناعي، حلًا مبتكرًا لهذه المعضلة من خلال نظامها الجديد KAME (Knowledge-Access Model Extension). يعد KAME هندسة معمارية هجينة تجمع بين زمن الاستجابة شبه الصفري لأنظمة الكلام المباشر (S2S) مع القدرة على حقن المعرفة الغنية لنماذج اللغة الكبيرة في الوقت الفعلي، ليمثل بذلك قفزة نوعية في تفاعل الإنسان مع الآلة.

Sakana AI Introduces KAME: A Tandem Speech-to-Speech Architecture That Injects LLM Knowledge in Real Time

التحدي: مفاضلة السرعة مقابل الذكاء في الذكاء الاصطناعي للمحادثة

لفهم الأهمية الكبيرة لـ KAME، يجب أن نستوعب التحديات التي تواجه التصميمين السائدين حاليًا في الذكاء الاصطناعي للمحادثة. أولًا، نماذج الكلام المباشر (S2S) مثل Moshi (التي طورتها KyutAI) هي محولات متجانسة تتلقى رموزًا صوتية وتنتج رموزًا صوتية أخرى في حلقة مستمرة. نظرًا لعدم حاجتها إلى التزامن مع أنظمة خارجية، فإن زمن استجابتها منخفض بشكل استثنائي؛ ففي كثير من الاستعلامات، يبدأ النموذج في التحدث قبل أن ينهي المستخدم سؤاله. ومع ذلك، وبما أن الإشارات الصوتية تحمل كثافة معلوماتية أكبر بكثير من النص، يتعين على النموذج تخصيص سعة كبيرة لنمذجة الميزات شبه اللغوية مثل النبرة والعاطفة والإيقاع. وهذا يترك مساحة أقل للمعرفة الواقعية والتفكير العميق.

ثانيًا، الأنظمة المتسلسلة، على النقيض، تقوم بتوجيه كلام المستخدم عبر نموذج التعرف التلقائي على الكلام (ASR)، ثم تغذي النص الناتج إلى نموذج لغة كبيرة (LLM) قوي، ثم تحول استجابة LLM مرة أخرى إلى كلام عبر محرك تحويل النص إلى كلام (TTS). جودة المعرفة ممتازة — حيث يمكنك توصيل أي نموذج لغة كبيرة حديث — ولكن يجب أن ينتظر النظام حتى ينهي المستخدم كلامه قبل أن تبدأ معالجة ASR و LLM. والنتيجة هي متوسط تأخير يبلغ حوالي 2.1 ثانية، وهو وقت طويل بما يكفي لتعطيل التدفق الطبيعي للمحادثة بشكل ملحوظ، مما يقلل من طبيعية التفاعل ويجعله يبدو آليًا ومتقطعًا.

KAME: الهندسة المعمارية "تتحدث بينما تفكر"

يقدم KAME مقاربة جديدة جذريًا عن طريق العمل كنظام متزامن يضم مكونين غير متزامنين يعملان بالتوازي. الوحدة الأمامية للكلام المباشر (S2S) تستند إلى بنية Moshi وتقوم بمعالجة الصوت في الوقت الفعلي في دورة من الرموز الصوتية المنفصلة (حوالي كل 80 مللي ثانية). وتبدأ في توليد استجابة منطوقة فورًا. داخليًا، تم توسيع تصميم Moshi الأصلي ذو التدفقات الثلاثة – صوت الإدخال، الحديث الداخلي (النص)، وصوت الإخراج – في KAME بتدفق رابع: تدفق 'الاوراكل' (oracle stream). هذه هي نقطة الابتكار الرئيسية.

تتكون وحدة LLM الخلفية من مكون لتحويل الكلام إلى نص (STT) متدفق، مقترن بنموذج لغة كبيرة كامل النطاق. بينما يتحدث المستخدم، يقوم مكون STT ببناء نسخة جزئية بشكل مستمر ويرسلها دوريًا إلى LLM الخلفي. لكل نسخة جزئية يتلقاها، يقوم LLM بتوليد استجابة نصية مرشحة – تسمى 'أوراكل' – ويقوم ببثها مرة أخرى إلى الواجهة الأمامية. نظرًا لأن كلام المستخدم لا يزال يصل، تبدأ هذه 'الاوراكل' كتخمينات مدروسة وتصبح أكثر دقة بشكل تدريجي مع اكتمال النسخة.

يقوم محول S2S الأمامي بعد ذلك بضبط مخرجه الكلامي المستمر بناءً على سياقه الداخلي ورموز 'الاوراكل' الواردة هذه. عندما يصل 'أوراكل' جديد وأفضل، يمكن للنموذج تصحيح مساره – تحديث استجابته بشكل فعال في منتصف الجملة، تمامًا كما يفعل الإنسان. وبما أن كلا الوحدتين تعملان بشكل غير متزامن ومستقل، فإن زمن الاستجابة الأولي يظل قريبًا من الصفر، مما يوفر تجربة سلسة وطبيعية.

التدريب المبتكر: تعزيز الأوراكل المحاكي

أحد التحديات الجوهرية في تطوير KAME هو عدم وجود مجموعات بيانات طبيعية تحتوي على إشارات 'أوراكل' جاهزة. لمعالجة هذه المشكلة، اعتمد فريق البحث في Sakana AI تقنية مبتكرة تسمى 'تعزيز الأوراكل المحاكي' (Simulated Oracle Augmentation). باستخدام نموذج لغة كبير 'محاكي' (simulator LLM) ومجموعة بيانات محادثة قياسية (تضم كلام المستخدم واستجابة الحقيقة الأرضية)، يقوم فريق البحث بتوليد سلاسل 'أوراكل' اصطناعية تحاكي ما ينتجه نموذج لغة كبير في الوقت الفعلي عبر مستويات مختلفة من اكتمال النسخة.

لقد قاموا بتعريف ستة مستويات من التلميح (0-5)، تتراوح من تخمين غير موجه تمامًا عند المستوى 0 إلى الاستجابة الحرفية للحقيقة الأرضية عند المستوى 5. تم بناء بيانات التدريب لـ KAME من 56,582 حوارًا اصطناعيًا مستمدة من مجموعات بيانات مثل MMLU-Pro و GSM8K و HSSBench، وتم تحويلها إلى صوت عبر TTS وتم تعزيزها بسلاسل 'أوراكل' التقدمية هذه. هذه المنهجية المبتكرة سمحت للنموذج بتعلم كيفية دمج المعلومات الواردة من LLM الخلفي بفعالية مع الحفاظ على سرعة الاستجابة.

نتائج مبهرة: جودة الأنظمة المتسلسلة مع زمن استجابة شبه صفري

أظهرت التقييمات التي أجريت على مجموعة فرعية من معيار MT-Bench للأسئلة والأجوبة متعددة الأدوار – وتحديدًا فئات الاستدلال، العلوم والتكنولوجيا والهندسة والرياضيات (STEM)، والعلوم الإنسانية (باستثناء البرمجة والاستخراج والرياضيات ولعب الأدوار والكتابة لعدم ملاءمتها للتفاعل الكلامي) – تحسنًا هائلاً. سجل Moshi وحده 2.05 في المتوسط. في المقابل، سجل KAME مع gpt-4.1 كنموذج خلفي 6.43، وسجل KAME مع claude-opus-4-1 كنموذج خلفي 6.23 – وكلاهما بنفس زمن الاستجابة تقريبًا لـ Moshi، أي قرب الصفر.

بينما سجل النظام المتسلسل الرائد، Unmute (المدعوم أيضًا بـ gpt-4.1)، 7.70، إلا أنه جاء بمتوسط تأخير يبلغ 2.1 ثانية مقارنة بزمن الاستجابة شبه الصفري لـ KAME. ولعزل قدرة LLM الخلفية عن تأثيرات التوقيت، قام فريق البحث أيضًا بتقييم استجابات LLM الخلفي النصية من حقن 'الأوراكل' النهائي في كل جلسة KAME مباشرة – متجاوزين مشكلة التوليد المبكر تمامًا. بلغ متوسط هذه الدرجات 7.79 (الاستدلال 6.48، STEM 8.34، العلوم الإنسانية 8.56)، وهي مقاربة لـ 7.70 التي حققها Unmute.

يؤكد هذا أن الفجوة بين KAME والأنظمة المتسلسلة لا تتعلق بحد أقصى لمعرفة LLM الخلفي، بل هي نتيجة البدء في التحدث قبل سماع استعلام المستخدم بالكامل. والأهم من ذلك، أن KAME لا يعتمد على نموذج خلفي معين (back-end agnostic). فقد تم تدريب الواجهة الأمامية باستخدام gpt-4.1-nano كنموذج خلفي أساسي، ولكن استبداله بـ claude-opus-4-1 أو gemini-2.5-flash في وقت الاستدلال لا يتطلب أي إعادة تدريب. في تجارب Sakana AI، تفوق claude-opus-4-1 غالبًا على gpt-4.1 في مهام الاستدلال، بينما سجل gpt-4.1 درجات أعلى في أسئلة العلوم الإنسانية – مما يشير إلى أن المطورين يمكنهم توجيه الاستعلامات إلى LLM الأنسب للمهمة دون المساس بالنموذج الأمامي.

ماذا يعني هذا لك؟

بالنسبة للمستخدمين، يعني إطلاق KAME نهاية الانتظار المحبط الذي يصاحب المساعدين الصوتيين الأكثر ذكاءً. لم تعد مضطرًا للاختيار بين سرعة الاستجابة أو عمق المعلومة. فالتفاعلات الصوتية ستصبح أكثر سلاسة وطبيعية، أشبه بالمحادثات البشرية الحقيقية حيث يمكن أن تتغير الإجابة أو تُصقل في منتصف الجملة. تخيل مساعدًا صوتيًا يفهمك بشكل أسرع وأعمق، ويقدم إجابات دقيقة ومفصلة دون تأخير ملحوظ، مما يعزز تجربتك اليومية بشكل كبير سواء كنت تبحث عن معلومات، تدير مهام، أو حتى تجري محادثة عابرة.

أما بالنسبة للمطورين والشركات، فإن KAME يفتح آفاقًا جديدة في تصميم تطبيقات الذكاء الاصطناعي للمحادثة. القدرة على استبدال نماذج اللغة الكبيرة الخلفية (LLMs) دون الحاجة لإعادة تدريب الواجهة الأمامية تمنح مرونة هائلة. يمكن للمطورين اختيار LLM الأنسب لمهمة معينة – سواء كان ذلك للتعامل مع الاستدلال المعقد، أو توليد محتوى إبداعي، أو الإجابة على أسئلة ثقافية – وبالتالي تحسين أداء تطبيقاتهم وتخصيصها لاحتياجات محددة. هذا يقلل من تكاليف التطوير ويسرع وتيرة الابتكار، مما يسمح بإنشاء مساعدين صوتيين أكثر قوة وتخصصًا في مجالات متنوعة مثل خدمة العملاء والرعاية الصحية والتعليم.

الخاتمة

يمثل نظام KAME من Sakana AI إنجازًا ثوريًا في مجال الذكاء الاصطناعي للمحادثة. من خلال دمج سرعة استجابة أنظمة الكلام المباشر مع عمق معرفة نماذج اللغة الكبيرة في الوقت الفعلي، يكسر KAME الحاجز التقليدي بين السرعة والذكاء. لقد أثبتت هذه الهندسة المعمارية الهجينة قدرتها على تحسين جودة الاستجابة بشكل كبير مع الحفاظ على زمن استجابة شبه صفري. ومع ميزة القدرة على تبديل نماذج LLM الخلفية بسهولة، يفتح KAME الباب أمام جيل جديد من المساعدين الصوتيين الأكثر طبيعية وذكاءً وتخصيصًا. هذا الابتكار لا يعد بتحسين تجربتنا مع الذكاء الاصطناعي فحسب، بل يمهد الطريق لتطبيقات أكثر تعقيدًا وتكاملًا في المستقبل.

المراجع:
Inference code

Badr Ai

ابتكار Sakana AI: نظام KAME يدمج ذكاء LLM الفوري مع سرعة الكلام