MAISON CODE .
/ Tech · AI · LLM · RAG · Machine Learning

LLM Fine-Tuning vs RAG: كيفية تدريس الذكاء الاصطناعي في عملك

هل يجب عليك تدريب نموذج الذكاء الاصطناعي الخاص بك؟ ربما لا. الفرق الرياضي بين "تعلم المهارة" (الضبط الدقيق) و"قراءة كتاب" (RAG).

AB
Alex B.
LLM Fine-Tuning vs RAG: كيفية تدريس الذكاء الاصطناعي في عملك

المفهوم الخاطئ “للتدريب”.

في عام 2025، سيكون لكل مدير تنفيذي للتكنولوجيا نفس التفويض: “نحن بحاجة إلى الذكاء الاصطناعي الخاص بنا”. يأتون إلينا ويقولون: “نريد تدريب نموذج على بياناتنا حتى يعرف كتالوج منتجاتنا.” عندما يقولون “قطار”، فإنهم يتخيلون التعلم بأسلوب “الماتريكس”. قم بتحميل البيانات، وسيعرف الذكاء الاصطناعي رياضة الكونغ فو. يعد هذا سوء فهم أساسي لكيفية عمل نماذج اللغات الكبيرة (LLMs). يفترضون أن خط الأنابيب هو: `المستندات -> الضبط الدقيق -> النموذج الذكي. في الواقع، لا يعد الضبط الدقيق أبدًا الأداة المناسبة لحقن المعرفة. لفهم السبب، علينا التمييز بين الذاكرة الإجرائية (المهارات) والذاكرة الدلالية (الحقائق). الضبط الدقيق يعلم النموذج كيفية التحدث. يقوم RAG بتعليم النموذج ما يجب التحدث عنه.

لماذا يناقش Maison Code هذا الأمر

في Maison Code، نقوم ببناء أنظمة الذكاء الاصطناعي للمؤسسات. نرى شركات تنفق 50 ألف دولار لضبط Llama 3 في وثائقها، لتكتشف أن النموذج لا يزال يهذي. “لماذا قيل أن تكلفة المنتج 50 دولارًا؟ لقد قمنا بتحديث السعر إلى 60 دولارًا في مجموعة البيانات!” لأن الأوزان لزجة. بمجرد أن يتعلم النموذج حقيقة أثناء التدريب، فمن الصعب إلغاء تعلمها. نحن نطبق بنيات RAG (الجيل المعزز للاسترجاع) لأنها ديناميكية، وأرخص، وقائمة على الحقيقة. نحن ننقذ عملائنا من “فخ التدريب”.

تشبيه الطالب

تخيل أنك ترسل طالبًا (ماجستير القانون) إلى اختبار علم الأحياء (استعلام المستخدم). الطالب ذكي لكنه لا يعرف المنهج المحدد لجامعتك (بيانات عملك).

المنهج 1: التدريب المسبق (الطفل)

هذا هو بناء الدماغ من الصفر. أنت تعلم الطفل القراءة والكتابة والمنطق وفهم العالم. التكلفة: 100 مليون دولار + 10000 وحدة معالجة رسوميات. من يفعل هذا: OpenAI، Google، Meta، Mistral. يجب ألا تفعل هذا أبدًا. إلا إذا كنت دولة ذات سيادة.

المنهج 2: الضبط الدقيق (مدرسة الطب)

تأخذ طالبًا ذكيًا وترسله إلى كلية الطب لمدة 4 سنوات. يتصرفون مثل الطبيب. يتحدثون مثل الطبيب باستخدام الكلمات اللاتينية. يكتبون الوصفات الطبية بشكل صحيح. لكن هل يعرفون ضغط دم المريض جون دو الآن؟ لا، لأنهم تخرجوا بالأمس. ليس لديهم إمكانية الوصول إلى ملف المريض الحي. الضبط الدقيق يغير السلوك والأسلوب. فهو يعلم النموذج بناء الجملة الجديد (على سبيل المثال، “MaisonScript”)، أو كيف يكون فظًا/مهذبًا، أو كيفية إخراج JSON. إنه ليس جيدًا للحقائق، لأن الحقائق تتغير. التكلفة: 1000 دولار - 10000 دولار.

المنهج 3: RAG (اختبار الكتاب المفتوح)

أنت تأخذ طالبًا ذكيًا. لا يمكنك إرسالهم إلى مدرسة الطب. بدلًا من ذلك، أعطهم كتابًا دراسيًا ضخمًا (قاعدة البيانات الخاصة بك) وقل: “يمكنك البحث عن الإجابة أثناء الامتحان.” عندما يأتي السؤال (“ما هو ضغط دم جون دو؟”)، يبحث الطالب في الكتاب، ويجد الصفحة، ويقرأها، ويحصل على الإجابة. ** RAG (الجيل المعزز للاسترجاع) يتعامل مع المعرفة.** التكلفة: 0.01 دولار لكل استعلام.

الغوص العميق: الجيل المعزز للاسترجاع (RAG)

RAG هي البنية المفضلة لـ 95% من تطبيقات الذكاء الاصطناعي للمؤسسات. فهو يحل مشكلتين كبيرتين:

  1. الهلوسة: يضطر النموذج إلى استخدام السياق المقدم. إذا كان السياق يقول “كانت المبيعات 5 ملايين دولار أمريكي”، فلن يخمن النموذج “10 ملايين دولار أمريكي”.
  2. الثبات: لا تحتاج إلى إعادة تدريب النموذج عندما يتغير مخزونك. يمكنك فقط تحديث قاعدة البيانات.

كومة RAG

  1. الابتلاع:
    • خذ ملفات PDF ومستندات Notion وقاعدة بيانات SQL.
    • التقطيع: قسّمها إلى أجزاء صغيرة (على سبيل المثال، 500 كلمة). قم بتداخلها بمقدار 50 كلمة للحفاظ على السياق.
  2. التضمين:
    • قم بتمرير كل قطعة من خلال نموذج التضمين (OpenAI text-embedding-3-small أو Cohere).
    • يؤدي هذا إلى تحويل النص إلى ناقل (قائمة تضم 1536 رقمًا).
  3. قاعدة بيانات المتجهات:
    • قم بتخزين هذه المتجهات في Pinecone أو Weaviate أو pgvector.
  4. الاسترجاع:
    • يسأل المستخدم: “هل لدينا قمصان حمراء؟”
    • تحويل السؤال إلى ناقلات.
    • قاعدة بيانات البحث عن “أقرب الجيران” (تشابه جيب التمام).
    • إرجاع DB: “حزمة القميص الأحمر - المخزون: 50”.
  5. الجيل:
    • بناء موجه:
      أنت مساعد مفيد. أجب عن سؤال المستخدم بناءً على السياق أدناه فقط.
      السياق: "حزمة القميص الأحمر - المخزون: 50"
      السؤال: هل لدينا قمصان حمراء؟
      الجواب:
    • تجيب LLM: “نعم، لدينا 50 قطعة في المخزون.”

عند الحاجة: الضبط الدقيق (تكييف المجال)

فهل الضبط الدقيق عديم الفائدة؟ لا، فهي تحتوي على حالات استخدام محددة يفشل فيها RAG.

حالة الاستخدام 1: منشئ الأكواد لديك لغة برمجة داخلية تسمى “MaisonScript”. GPT-4 لم يسبق له مثيل. لن يساعدك RAG لأنه إذا قمت باسترداد مقتطف من التعليمات البرمجية، فإن النموذج لا يزال لا يفهم القواعد النحوية أو قواعد المترجم. يمكنك ضبط Llama 3 على 50000 سطر من MaisonScript. الآن “يتحدث” اللغة بطلاقة.

حالة الاستخدام 2: صوت العلامة التجارية أنت علامة تجارية فاخرة. أنت لا تستخدم الرموز التعبيرية أبدًا. أنت دائمًا تبدو منعزلًا قليلاً وفرنسيًا. الشخصية الافتراضية لـ GPT-4 هي “وظيفة المشجع”. الهندسة السريعة (“لا تستخدم الرموز التعبيرية”) ضعيفة. إنه ينسى. يمكنك ضبطها على 1000 رسالة بريد إلكتروني سابقة من فريق الكونسيرج الخاص بك. أما الآن فهو يتبنى هذه الشخصية بشكل طبيعي بنسبة 100% من الوقت.

حالة الاستخدام 3: زمن الاستجابة وخفض التكلفة GPT-4 مكلف وبطيء. يمكنك استخدام GPT-4 لإنشاء بيانات التدريب (الأسئلة + الإجابات المثالية). ثم تقوم بضبط نموذج صغير (Mistral 7B أو GPT-3.5) على تلك البيانات. يتعلم النموذج الصغير تقليد النموذج الكبير. يمكنك الآن تشغيل النموذج الصغير مقابل 1/10 من التكلفة و10x من السرعة. هذا هو ** التقطير **.

تحليل التكلفة/المنفعة

ميزةخرقةضبط دقيق
مصدر المعرفةديناميكي (DB في الوقت الحقيقي)ثابت (مجموعة التدريب)
وقت الإعدادأيامأسابيع / أشهر
الصيانةمنخفض (مزامنة تلقائية)عالي (أعد التدريب على كل انجراف)
الدقةعالية (مؤرضة)متوسطة (ممكن هلاوس)
التكلفةالتخزين + التضميناتالحساب (تدريب وحدة معالجة الرسومات)
الأفضل لـضمان الجودة، البحث، التحليلالأسلوب، النغمة، الكود، المنطق

11. التقييم: كيف تعرف أنه يعمل؟

“النموذج يبدو جيدًا.” -> هذه ليست هندسة. نحن نستخدم إطار عمل RAGAS (تقييم الجيل المعزز للاسترجاع). يقيس:

  1. الإخلاص: هل تعتمد الإجابة على السياق فقط؟
  2. ملاءمة الإجابة: هل قام بالفعل بحساب ضغط الدم؟
  3. دقة السياق: هل أعادت قاعدة البيانات الصفحة الصحيحة؟ نقوم بتشغيل مجموعة التقييم هذه في CI/CD. إذا انخفضت دقة النموذج إلى أقل من 90%، فسيفشل النشر.

12. تحجيم قاعدة بيانات المتجهات (حد 10 ملايين)

يعتبر Pinecone رائعًا لـ 100 ألف ناقل. ماذا عن 100 مليون؟ على نطاق واسع، “KNN الدقيق” (العثور على التطابق المثالي) بطيء جدًا. نحن نستخدم مؤشر HNSW (العالم الصغير الهرمي القابل للملاحة). إنه بحث تقريبي (ANN). يتم تداوله بدقة 1٪ لسرعة 1000x. نقوم أيضًا بتمكين البحث المختلط (الكلمة الرئيسية + المتجه) للتعامل مع عمليات بحث SKU الدقيقة (“أرني SKU-123”) والتي يعتبر البحث المتجه سيئًا فيها.

13. تنظيم البيانات: القمامة الواردة، القمامة الخارجة

التدريب على 100 مثال سيء أسوأ من التدريب على 0. إذا قمت بتدريب نموذج على سجلات دعم العملاء الخاصة بك، وكان وكلاؤك فظين، فسيكون الذكاء الاصطناعي فظًا. معالجة البيانات تمثل 80% من العمل.

  1. إلغاء البيانات المكررة: إزالة الأسئلة المتطابقة.
  2. تجريد معلومات تحديد الهوية الشخصية: إزالة رسائل البريد الإلكتروني وأرقام الهواتف.
  3. المعيار الذهبي: اطلب من أحد كبار الموظفين إعادة كتابة الإجابات لتكون مثالية. لقد أنشأنا أداة داخلية “Maison Annotate” لمساعدة الفرق على تنظيف مجموعات البيانات الخاصة بهم قبل إنشاء وحدة معالجة رسومات واحدة.

14. التدريب الفعال: LoRA (التكيف ذو الرتبة المنخفضة)

تحديثات الضبط الدقيق الكاملة لـ 70 مليار معلمة. يتطلب هذا 8 وحدات معالجة رسومات H100 × (30 دولارًا في الساعة). LoRA يجمد الأوزان الرئيسية ويقوم فقط بتدريب طبقة “محول” صغيرة (1% من المعلمات). النتيجة: يمكنك تدريب Llama 3 على وحدة معالجة رسومات لمستهلك واحد (RTX 4090). يبلغ حجم ملف المحول 100 ميجابايت فقط. يمكنك تبديل المحولات بسرعة في وقت التشغيل:

  • المستخدم أ يتحدث إلى “المحول الطبي”.
  • يتحدث المستخدم “ب” إلى “المحول القانوني”. يتم تقديم جميعها من نفس النموذج الأساسي.

15. الخلاصة: مستقبل الهجين

أفضل الأنظمة تستخدم كليهما. نحن نسمي هذا Fine-Tuned RAG.

  1. الضبط الدقيق لنموذج صغير وفعال ليكون جيدًا حقًا في قراءة تنسيق المستند المحدد وإخراج مخطط JSON المحدد.
  2. استخدم RAG ​​لتغذية هذا النموذج بأحدث الحقائق من قاعدة البيانات. وهذا يمنحك موثوقية متخصص (Fine-Tuning) ذو معرفة بالموسوعة (RAG). لا تختار. يجمع.

##هلوسة النموذج؟

إذا كان برنامج الدردشة الآلي الخاص بك يكذب على عملائك، أو فشل مشروع “التدريب” الخاص بك في تحقيق النتائج، فيمكن لـ Maison Code إعادة تصميم خط الأنابيب الخاص بك. نحن نطبق أنظمة RAG على مستوى الإنتاج باستخدام Pinecone وLangChain لتأسيس الذكاء الاصطناعي الخاص بك على أرض الواقع.


قم بتعيين مهندسينا المعماريين.