يصف "تكوين المحول" مجموعة المعلمات الفائقة المعمارية وإعدادات التدريب التي تحدد مثيل نموذج المحول. يتضمن ذلك الاختيارات الهيكلية (عدد طبقات التشفير/وحدة فك التشفير، وأبعاد النموذج، وعدد رؤوس الانتباه، والحجم المخفي للتغذية الأمامية)، والتنظيم (معدلات التسرب، وموضع الطبقة المعيارية)، وإعدادات التدريب/وقت التشغيل (حجم الدفعة، وطول التسلسل، والمحسن، والجدول الزمني لمعدل التعلم). يحدد هذا القسم بإيجاز الأجزاء التي ستراها في القوالب أدناه وسبب أهميتها بالنسبة للأداء والحوسبة ووقت الاستجابة.
هذه هي المعلمات التي تحدد بشكل أساسي سعة النموذج واستخدام الذاكرة:
بالنسبة للاستدلال على الجهاز، قم بإعطاء الأولوية لنموذج d_model الأصغر وعدد أقل من الطبقات، وتقليل طول التسلسل إن أمكن. استخدم عددًا أقل من الرؤوس (على سبيل المثال، 2-4) لتبسيط إسقاط الانتباه وتفضيل نسبة 1.5-2× FFN. يوصى بالتدريب المدرك للكمية وتقطير المعرفة للحفاظ على الدقة.
تعمل التكوينات "الأساسية" المتوازنة بشكل جيد مع العديد من مهام البرمجة اللغوية العصبية ومهام تحويل الرؤية. إنهم يستبدلون الحوسبة والذاكرة بتعميم أقوى ويكونون مناسبين للخدمة من جانب الخادم أو الضبط الدقيق لمجموعات البيانات متوسطة الحجم.
تقيس التكوينات الكبيرة d_model وL وغالبًا ما تستخدم شبكات FFN أوسع والمزيد من الرؤوس. إنها تتطلب تدريبًا موزعًا وخيارات محسّنة/جدولة دقيقة للتقارب بشكل موثوق.
فيما يلي قوالب التكوين العملية القابلة للنسخ واللصق (تلميحات التدريب الهيكلي). استخدمها كنقاط بداية وقم بتكييف حجم الدفعة ومعدل التعلم وطول التسلسل مع أجهزتك ومجموعة البيانات الخاصة بك.
| نموذج | الهيكل (L / d_model / h / d_ff) | تلميحات التدريب |
| حافة صغيرة | 6 / 320 / 4 / 1024 | AdamW, lr 1e-4 مع إحماء خطي (خطوات 1k)، الدفعة 64، قياس ما بعد التدريب. |
| قاعدة | 12 / 768 / 12 / 3072 | AdamW, lr 5e-5 مع جدول جيب التمام، الدفعة 32-128 (تجميع إذا لزم الأمر). |
| كبير | 24–48 / 1024–2048 / 16–32 / 4096–8192 | AdamW مع LAMB أو Adam الموزع؛ lr 1e-4–3e-4 مع فترة إحماء طويلة، دفعة كبيرة عبر البيانات المتوازية أو التجزئة. |
إذا كان عليك ضبط مجموعة صغيرة من المقابض، فقم بإعطاء الأولوية لحجم النموذج (d_model & L) أولاً، ثم معدل التعلم وحجم الدفعة. اضبط عدد الرؤوس فقط إذا أصبح d_model/h صغيرًا جدًا (احتفظ بحجم الرأس ≥ 32 للتدرجات الثابتة في العديد من التطبيقات).
استخدم التسرب (0.1) ومتغيرات الطبقة (ما بعد LN أو ما قبل LN اعتمادًا على البنية). بالنسبة للنماذج العميقة، غالبًا ما يوفر Pre-LN تدريبًا أكثر استقرارًا. القطع المتدرج (1.0) يمنع حدوث طفرات؛ يقلل التدريب المختلط الدقة (AMP) من الذاكرة ويسرع التدريب ولكنه يراقب عدم الاستقرار.
استخدم القوالب أعلاه كنقاط بداية وقم بضبطها بشكل متكرر بناءً على مقاييس التحقق وقيود الأجهزة. تتبع كلاً من الإنتاجية (الرموز المميزة/ثانية) ووقت الاستجابة لكل رمز مميز أثناء التقييم. عندما تكون في شك، ابدأ من القالب "Base" وقم بتشغيل عمليات الاجتثاث المستهدفة: قم بتقليل أو زيادة L وd_model بشكل مستقل لمراقبة المكاسب الهامشية.