دراسة تكشف انتقال عدوى رقمية بين نماذج الذكاء الاصطناعي
أظهرت دراسة مشتركة بين برنامج زمالة Anthropic لأبحاث أمان الذكاء الاصطناعي، جامعة كاليفورنيا – بيركلي Berkeley ، جامعة وارسو للتكنولوجيا، ومجموعة Truthful AI، أن نماذج الذكاء الاصطناعي قادرة على تمرير سلوكيات وميول خفية فيما بينها، حتى عند استخدام بيانات تدريب تبدو سليمة وخالية من أي محتوى مريب.
اعتمد الباحثون على إنشاء نموذج “معلّم” بصفة معينة، مثل حب البوم أو سلوكيات غير منضبطة، ثم توليد بيانات تدريب لنموذج “طالب” بعد حذف أي إشارات مباشرة لتلك الصفة. المفاجأة أن النموذج الطالب اكتسب الصفة نفسها رغم غيابها عن البيانات الظاهرة. وفي تجارب أخرى، أنتجت النماذج الطلاب مقترحات ضارة أو غير أخلاقية رغم أن البيانات خلت منها تماماً.
وتبين أن انتقال هذه السمات يحدث غالباً بين النماذج التي تنتمي إلى العائلة نفسها، مثل GPT أو Qwen، بينما لم تُسجَّل حالات انتقال بين علامات مختلفة.

البحث يثير مخاوف جدية بشأن سلامة النماذج، إذ قد تنتقل تحيزات أو أجندات خفية دون أن تُكتشف، ما يجعل الحاجة ملحة لزيادة الشفافية، وضمان نظافة البيانات، وتعميق فهم آليات عمل الذكاء الاصطناعي قبل أن تتحول هذه الظاهرة إلى خطر واسع الانتشار.
