موديلات الطبقة S: GLM و Hermes 👀👀🔥🥰
قبل 3 أشهر ، أدركت أنني كنت أعتمد بشكل ميؤوس منه على الشركات التي تهتم فقط بالسلطة والمال والسيطرة.
في هذه المرحلة ، كان كل من Cursor و Claude و OpenAI ، قد عزز خططهم غير المحدودة.
كنت أرغب في Mac M3 Ultra بذاكرة وصول عشوائي 512 جيجابايت. أقنعني أحمد وبيوديبي بخلاف ذلك.
إليك ما تعلمته في بناء جهاز الذكاء الاصطناعي الخاص بي
-----------------------------
البناء (3 آلاف دولار - 10 آلاف دولار)
هذا هو أعلى أداء يمكنك الحصول عليه أقل من 10 آلاف دولار أمريكي
• 4x RTX 3090s مع 2x NVLink
• وحدة المعالجة المركزية Epyc مع 128 ممر PCIe
• 256-512 جيجابايت DDR4 رام
• اللوحة الأم Romed8-2T
• رف مخصص + تبريد مروحة
• AX1600i PSU + رافعات عالية الجودة
التكلفة: 5 آلاف دولار في الولايات المتحدة ، 8 آلاف دولار في الاتحاد الأوروبي (بفضل ضريبة القيمة المضافة)
فحص واقع الأداء
المزيد من 3090s = نماذج أكبر ، لكن العوائد المتناقصة تبدأ بسرعة.
الخطوة التالية: 8-12 وحدة معالجة رسومات ل AWQ 4 بت أو BF16 Mix GLM 4.5-4.6
ولكن في هذه المرحلة ، تكون قد وصلت إلى حدود أجهزة المستهلك.
----------------------------------------
النماذج التي تعمل:
طرازات الطبقة S (المعيار الذهبي)
• GLM-4.5-Air: يطابق Sonnet 4.0 ، وحصلت الرموز بشكل لا تشوبه شائبة على هذا التعبئة المسبقة الثابتة 50 tps و 4k / s مع vLLM
• Hermes-70B: يخبرك بأي شيء دون كسر الحماية
أحصنة العمل من المستوى A
• خط Qwen
• خط ميسترال
• GPT-OSS
خيارات الطبقة B
• خط جيما
• خط اللاما
------------------------------------
مكدس البرامج الذي يعمل بالفعل
للترميز / الوكلاء:
• كود كلود + جهاز التوجيه (يعمل GLM-4.5-Air بشكل مثالي)
• Roocode Orchestrator: تحديد الأوضاع (الترميز ، الأمان ، المراجع ، الباحث)
يدير المنسق النطاق ، ويدور LLMs المحلية مع سياق مجزأ ، ثم يجمع النتائج. يمكنك استخدام GPT-5 أو Opus / GLM-4.6 كمنسق ، والنماذج المحلية مثل كل شيء آخر!
خيارات السقالات (مرتبة)
1. vLLM: ذروة الأداء + سهولة الاستخدام ، سريع إذا كان النموذج مناسبا
2. exllamav3: أسرع بكثير ، جميع الأحجام الكمية ، ولكن السقالات السيئة
3. llama.cpp: بداية سهلة ، سرعات أولية جيدة ، تتحلل على السياق
توصيات واجهة المستخدم
• lmstudio: مغلق على تجربة مستخدم llama.cpp ولكنها رائعة
• 3 Sparks: تطبيق Apple لطلاب LLM المحليين
• JanAI: جيد ولكن محدود الميزات
-------------------------------
الخلاصة
يمنحك Mac Ultra M3 أداء بنسبة 60-80٪ مع وصول MLX. ولكن إذا كنت تريد الأفضل على الإطلاق ، فأنت بحاجة إلى Nvidia.
علمتني هذه الرحلة: الاستقلال الحقيقي يأتي من فهم وبناء أدواتك الخاصة.
إذا كنت مهتما بالمعايير ، فقد نشرت الكثير على ملفي الشخصي


11.43 ألف
98
المحتوى الوارد في هذه الصفحة مُقدَّم من أطراف ثالثة. وما لم يُذكَر خلاف ذلك، فإن OKX ليست مُؤلِّفة المقالة (المقالات) المذكورة ولا تُطالِب بأي حقوق نشر وتأليف للمواد. المحتوى مٌقدَّم لأغراض إعلامية ولا يُمثِّل آراء OKX، وليس الغرض منه أن يكون تأييدًا من أي نوع، ولا يجب اعتباره مشورة استثمارية أو التماسًا لشراء الأصول الرقمية أو بيعها. إلى الحد الذي يُستخدَم فيه الذكاء الاصطناعي التوليدي لتقديم مُلخصَّات أو معلومات أخرى، قد يكون هذا المحتوى الناتج عن الذكاء الاصطناعي غير دقيق أو غير مُتسِق. من فضلك اقرأ المقالة ذات الصِلة بهذا الشأن لمزيدٍ من التفاصيل والمعلومات. OKX ليست مسؤولة عن المحتوى الوارد في مواقع الأطراف الثالثة. والاحتفاظ بالأصول الرقمية، بما في ذلك العملات المستقرة ورموز NFT، فيه درجة عالية من المخاطر وهو عُرضة للتقلُّب الشديد. وعليك التفكير جيِّدًا فيما إذا كان تداوُل الأصول الرقمية أو الاحتفاظ بها مناسبًا لك في ظل ظروفك المالية.