يعترف Openai بأنه قام باختبار تحديث chatgpt “sychophant-y”
في الأسبوع الماضي ، قام Openai بسحب تحديث GPT-4O الذي جعل chatgpt “الإغراء المفرط أو المقبول”-والآن شرح ما حدث بالضبط. في منشور مدونة نُشر يوم الجمعة ، قالت Openai إن جهودها من أجل “دمج ملاحظات المستخدمين والذاكرة والبيانات الجديدة” بشكل أفضل يمكن أن تؤدي جزئيًا إلى “وضع المقاييس على sycophancy”.
في الأسابيع الأخيرة ، لاحظ المستخدمون أن Chatgpt بدا أنه يتفق معهم باستمرار ، حتى في المواقف الضارة المحتملة. يمكن ملاحظة تأثير ذلك في تقرير الحجر المتداول عن الأشخاص الذين يقولون لأحبائهم يعتقدون أنهم “استيقظوا” روبوتات chatgpt التي تدعم أوهامهم الدينية للعظمة ، حتى أنها سبقت التحديث الذي تم عرضه الآن. اعترف سام ألمان ، الرئيس التنفيذي لشركة Openai في وقت لاحق ، أن أحدث تحديثات GPT-4O جعلتها “sycophant-y ومزعجة للغاية”.
في هذه التحديثات ، بدأ Openai في استخدام بيانات من أزرار الإبهام والإبهام في ChatGPT كـ “إشارة مكافأة إضافية”. ومع ذلك ، قال Openai ، قد يكون هذا “قد أضعف تأثير إشارة المكافآت الأولية لدينا ، والتي كانت تحتفظ بالتحقق.” تلاحظ الشركة أن ملاحظات المستخدم “يمكن أن تفضل أحيانًا استجابات أكثر قبولًا” ، فمن المحتمل أن تؤدي إلى تفاقم البيانات المقبولة بشكل مفرط. وقالت الشركة إن الذاكرة يمكن أن تضخيم sycophancy كذلك.
يقول Openai إن إحدى “القضايا الرئيسية” مع الإطلاق تنبع من عملية الاختبار. على الرغم من أن تقييمات النموذج غير المتصلة بالإنترنت واختبار A/B لها نتائج إيجابية ، فقد اقترح بعض المختبرين الخبراء أن التحديث جعل chatbot يبدو “بعيدًا قليلاً”. على الرغم من ذلك ، تقدم Openai إلى الأمام مع التحديث على أي حال.
“بالنظر إلى الوراء ، كانت التقييمات النوعية تلمح إلى شيء مهم ، ويجب أن نولي اهتمامًا أوثق” ، كتبت الشركة. “لقد كانوا يلتقطون على نقطة عمياء في Evals ومقاييسنا الأخرى. لم تكن Evals في وضع عدم الاتصال عريضة أو عميقة بما يكفي لالتقاط سلوك sycophants … ولم يكن لدى اختبارات A/B الإشارات الصحيحة لإظهار كيفية أداء النموذج على هذا الجبهة بتفاصيل كافية.”
للمضي قدمًا ، يقول Openai إنها “ستنظر رسميًا إلى المشكلات السلوكية” على أنها القدرة على منع الإطلاق ، بالإضافة إلى إنشاء مرحلة OPT-In ALPHA جديدة تتيح للمستخدمين تقديم ملاحظات مباشرة Openai قبل بدء تشغيل أوسع. تخطط Openai أيضًا لضمان إدراك المستخدمين للتغييرات التي يقوم بها ChatGpt ، حتى لو كان التحديث صغيرًا.