تعرف على Harness-1: وكيل استرجاع 20 مليار مدرب بالتعلم المعزز

فريق من الباحثين في جامعة إلينوي أوربانا-شامبين، جامعة كاليفورنيا بيركلي، وشركة Chroma يرى أن هذا الطلب كبير جداً. التعلم المعزز ينتهي بتحسين كل من قرارات البحث والمهام الروتينية للدفتر في آن واحد.

Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b

إجابتهم هي Harness-1، وكيل استرجاع 20 مليار مبني على gpt-oss-20b. تم تدريبه باستخدام التعلم المعزز داخل إطار بحث حالة ثابتة. الإطار يحتفظ بالدفتر، بينما تحتفظ السياسة بالقرارات الدلالية. تم إتاحة الأوزان وكود الإطار للجمهور.

ما هو Harness-1

Harness-1 ينتج مجموعة مرتبة من الوثائق لنموذج إجابة لاحق؛ لا يجيب على الأسئلة مباشرة. يعمل داخل إطار آلة حالة يركز على WORKINGMEMORY لكل حلقة. كل دورة تُظهر حالة بحث مدمجة مع الإجراءات الأخيرة. النموذج يولد إجراءً منسقاً، والإطار ينفذه، يحدّث الحالة، ويعرض الملاحظة التالية.

الإطار الحالة الثابتة: ما يخرج من السياسة

الفريق يطلق على مبدئهم “إلغاء التحميل المعرفي الحالة الثابتة”. السياسة تقرر ما يُبحث، ما يُنقّح، ما يُتحقق، ومتى يتوقف. الإطار يحافظ على الحالة القابلة للاسترجاع حول هذه القرارات.

تشمل الحالة عدة مكونات:

مجمع مرشّح يحتوي على وثائق مضغوطة ومُزيل التكرار.
مجموعة منقحة ذات علامات أهمية (very_high, high, fair, low) وتُقيد بـ30 وثيقة.
مخزن نص كامل يحتفظ بكل قطعة مسترجعة خارج الموجه.
رسم دليل دليل يضيف بنية.
مستخرج regex يفحص كل قطعة لأسماء علم، سنوات، وتواريخ.

الإطار يعرض الكيانات المتكررة، وثائق الجسر، والوثائق المفردة. وثائق الجسر تحتوي على كيانين أو أكثر متكررين؛ الوثائق المفردة تظهر في وثيقة واحدة وتُقترح كمتابعة.

السياسة تستخدم ثمانية أدوات: fan_out_search، search_corpus، grep_corpus، read_document، review_docs، curate، verify، وend_search.

مخرجات البحث تُضغط باستخدام sentence‑BM25 مع الحفاظ على أعلى أربع جمل. إزالة التكرار ذات مستويين تُزيل التكرارات حسب معرف القطعة وبصمة المحتوى.

تصميم خاص يعالج البدايات الباردة: أول بحث ناجح يملأ مجموعة المنقحات بثمانية نتائج مُعاد ترتيبها بأهمية “fair”. بعد ذلك، تُعزز الوثائق القوية وتُحذف الضعيفة، محوّلة المهمة من بناء من الصفر إلى تحسين.

متطلبات الإطار القابل للتدريب

الفريق حدد ثلاثة متطلبات: بدء منقّح دافئ، عرض حالة مشتقة مدمجة، وحوافز تحافظ على التنوع. Harness-1 يطبقها جميعاً.

عملية التدريب

التقسيم يتبع نفس بنية الإطار. التدريب المسبق الخاضع للإشراف يُعلّم النموذج تشغيل الواجهة. التعلم المعزز يُحسّن قرارات البحث بناءً على الحالة المُحافظة.

معلم واحد، GPT‑5.4، يعمل مباشرة داخل الإطار الكامل. بعد الترشيح، يبقى 899 مساراً للتدريب المسبق. يستخدم النموذج LoRA برتبة 32 لثلاث دورات. نقطة التحقق step‑550 تُهيئ التعلم المعزز.

التعلم المعزز يستخدم CISPO على‑السياسة مع حد 40 دورة ومكافأة نهائية فقط. يُدرب فقط على استفسارات SEC. المجموعات ذات المكافآت المتطابقة تُسقط من التدرج. التدريب تم على Tinker.

المكافأة تفصل بين الاكتشاف والاختيار، وتضيف مكافأة تنوع الأدوات. بدون هذه المكافأة، يتكرر البحث؛ الاستدعاء المنقّح يثبت عند 0.53. مع المكافأة، يستقر التنوع ويصل الاستدعاء إلى حوالي 0.60.

حالة الاختبار

تم تقييم Harness-1 على ثمانية معايير تشمل الويب، المالية، البراءات، والأسئلة المتعددة الخطوات. المقياس الرئيسي هو الاستدعاء المنقّح (coverage of relevant documents). استدعاء المسار يحسب الأدلة التي تم العثور عليها في أي مرحلة.

يحقق Harness-1 متوسط استدعاء منقّح 0.730، متفوقاً على الوكيل المفتوح التالي Tongyi DeepResearch 30B بفارق 11.4 نقطة. بين الباحثين المتقدمين، فقط Opus‑4.6 يتفوق في المتوسط.

نمط النقل هو أقوى دليل على الآلية. التدريب المسبق استخدم أربع عائلات معايير؛ التعلم المعزز استخدم فقط SEC. على مهام عائلة المصدر، ارتفع Harness-1 بفرق 7.9 نقطة؛ على أربعة معايير غير مُستخدمة في التدريب ارتفع بفرق 17.0 نقطة (زيادة 2.2×).

تدعم التجارب التجريبية صحة الإطار: إلغاء جميع آليات الإطار يقلل الاستدعاء بنسبة 12.2٪ نسبياً على BrowseComp+.

تطبيقات عملية

الطريقة تستهدف استرجاع الأدلة حيث تدعم الوثائق إجابة. يمكن استخدامها في:

مراجعة الأدبيات والبراءات؛ يساعد رسم الدليل والمجموعة المنقحة على تنظيم مصادر متعددة.
تحليل الملفات المالية؛ دراسة SEC تستخرج تاريخ انتقال تنفيذي عبر عدة 8‑K.
التحقق من الحقائق المتعددة الخطوات؛ أدوات fan_out_search وverify تحل الغموض قبل اتخاذ القرار.
نظام RAG معياري؛ المجموعة المنقحة تغذي مولد ثابت، وتؤدي المجموعات الأفضل إلى دقة إجابة أعلى.

نقاط القوة والضعف

أعلى متوسط استدعاء منقّح بين النماذج المفتوحة، وتأتي خلف Opus‑4.6 فقط. التحسينات ثابتة على المعايير غير المستخدمة، مما يشير إلى عمليات بحث عامة.

تم التدريب على 4,352 عنصر فريد، أقل بكثير من بعض القواعد الأساسية. الكود والنموذج متاحان كـ checkpoint مفتوح، ويمكن تشغيلهما عبر vLLM، SGLang، أو Transformers.

رسم الدليل يستخدم استخراج regex وليس ربط كيان كامل. أداة verify هي وكيل LLM قد تخطئ في الادعاءات الغامضة. ضغط sentence‑BM25 قد يزيل سياقاً مرتبطاً ببنية الخطاب. الفريق يقدم تقديرات نقطية دون فواصل ثقة كاملة.

Harness-1 هو وكيل بحث 20 مليار ينقل مهام دفتر البحث إلى البيئة، ويترك القرارات الدلالية للسياسة. يحقق متوسط استدعاء منقّح 0.730 عبر ثمانية معايير، متفوقاً على الوكيل المفتوح التالي بـ11.4 نقطة. فقط Opus‑4.6 يتفوق في المتوسط. أكبر الزيادات على المعايير غير المستخدمة (+17.0 مقابل +7.9 نقطة) تشير إلى نقل عمليات البحث المتعلمة. الأوزان وكود الإطار متاحان للجمهور، ويمكن تشغيلهما عبر vLLM، SGLang، أو Transformers.

Badr Ai