مع توسع انتشار المحتوى المُنشأ بالذكاء الاصطناعي على الإنترنت، أصبح من الأصعب — والأهم — مساعدة الجمهور على التعرّف على ما إذا كانت أي صورة أو مقطع صوتي أو فيديو ما، حقيقياً أم مزيفاً. ولمواجهة هذه المشكلة؛ تعاون فريق من الباحثين من شركة «مايكروسوفت» وجامعة نورثويسترن في مدينة إيفانستون بولاية إلينوي؛ ومنظمة «ويتنس» غير الربحية، التي تساعد النشطاء والصحافيين في التعامل مع التحديات المرتبطة بالمحتوى المُنشأ بالذكاء الاصطناعي؛ لإنشاء مجموعة بيانات جديدة لوسائط مُولدة بالذكاء الاصطناعي. أما الهدف، فتطوير أنظمة أقوى لاكتشاف التزييف العميق.
«معايير كشف التزييف العميق»
وصف الباحثون مجموعة البيانات الجديدة الخاصة بهم، والتي تُعرف باسم معيار كشف التزييف العميق «مايكروسوفت-نورثويسترن- ويتنس» (إم إن دبليو)، في دراسة نُشرت في الـ10 من أبريل (نيسان)، في دورية «آي إي إي إي إنتليجنت سيستمز». وقد جرى تصميم مجموعة البيانات عمداً باستخدام عينات متنوعة من الوسائط المُنشأة بالذكاء الاصطناعي، بحيث تعكس مشهد توليد المحتوى بالذكاء الاصطناعي الحالي بأكبر قدر ممكن.
وأوضح توماس روكا، الباحث الرئيس في «مايكروسوفت»، المتخصص في أبحاث الأمان المتعلقة بالذكاء الاصطناعي التوليدي، أن جودة الوسائط التي ينتجها الذكاء الاصطناعي التوليدي تتحسن باستمرار، وأن أي شخص تقريباً أصبح بإمكانه الآن استخدام تطبيق بسيط على هاتفه، لإنشاء رسالة صوتية تقلّد صوت شخص ما، أو صورة أو فيديو تحاكي مظهره.
وقد تحمل هذه الوسائط المزيفة أضراراً جسيمة، بدءاً من انتحال الهوية وعمليات الاحتيال، وصولاً إلى إنشاء صور حميمة دون موافقة أصحابها، وحتى إنتاج مواد تتعلق بالاعتداء الجنسي على الأطفال.
ومع ذلك، لا تُعدّ أدوات الذكاء الاصطناعي المُولِّدة مثالية (للتزييف)؛ فهي تترك وراءها «آثاراً رقمية» — إشارات أو علامات دقيقة تظهر عند إنشاء الفيديوهات أو الصور أو المقاطع الصوتية، ويمكن من خلالها التأكد من أن الوسائط مزيفة. وعن ذلك، قال روكا: «يمكن أن تتضمن هذه الآثار توزيعات الضوضاء، وعدم الاتساق بين أجزاء البكسلات، والفجوات في الإشارات الصوتية، وغيرها من المخالفات غير الطبيعية».
تحسين أنظمة الكشف
تعمل مجموعات بحثية حول العالم على تطوير أدوات كشف، وهي في الأساس نماذج ذكاء اصطناعي، مُدرَّبة على التعرف على الآثار الرقمية الموجودة في الوسائط المُنشأة بالذكاء الاصطناعي. ومع ذلك، أصبحت المسألة أشبه بسباق محموم لمعرفة ما إذا كانت أدوات الكشف قادرة على مواكبة أدوات التوليد، وللأسف لا تزال أدوات التوليد في المقدمة.
في هذا الصدد، قال روكا: «أصبح التحقق من أصالة الفيديوهات والصور والمقاطع الصوتية أمراً بالغ الأهمية للمجتمع، لكن أنظمة الكشف لم تصل بعد إلى مستوى التحدي. ونعتقد أن هذا يعود جزئياً إلى الطريقة التي يجري بها تقييم هذه الأنظمة».
على سبيل المثال، قد يستخدم الباحثون عدداً كبيراً من أمثلة المحتوى المُنشأ بالذكاء الاصطناعي من عدد محدود من أدوات التوليد؛ بهدف تدريب أداة الكشف الخاصة بهم. ومع ذلك، من المرجح أن يؤدي ذلك إلى إنشاء أداة كشف لا تتكيف جيداً مع المحتوى الجديد. وبما أن الذكاء الاصطناعي التوليدي يتطور بسرعة كبيرة، فقد أصبحت هذه مشكلة حقيقية اليوم. ونتيجة لذلك؛ قد تحقق أنظمة الكشف هذه أداءً جيداً عند اختبارها، باستخدام بيانات التدريب الخاصة بها أو المعايير المرجعية الراسخة، لكنها تؤدي بشكل ضعيف في العالم الحقيقي. وعن ذلك، قال روكا: «الذكاء الاصطناعي داخل المختبر لا يشبه الذكاء الاصطناعي في الواقع العملي».
ومن أجل الحصول على رؤية أشمل للتحديات؛ تعاون خبراء من «مايكروسوفت»، وجامعة نورثويسترن، ومنظمة «ويتنس» على تطوير معيار «إم إن دبليو» الجديد. في هذا الصدد، قال ماركو بوستيليوني، باحث ما بعد الدكتوراه في جامعة نورثويسترن: «إن الجمع بين هذه الرؤى — الأكاديمية، والصناعية، وغير الربحية الميدانية — يخلق نهجاً أكثر تكاملاً. ولم يكن بإمكان أيٍّ منا تحقيق ذلك بمفرده».
وتهدف مجموعة البيانات الجديدة إلى تضمين عينة شديدة التنوع من المواد المُنشأة بالذكاء الاصطناعي والمأخوذة من أدوات توليد مختلفة؛ بهدف تعزيز قدرة أدوات الكشف على العمل في بيئات العالم الحقيقي.
وقال بوستيليوني إن الفيديوهات والمقاطع الصوتية والصور المزيفة الموجودة على الإنترنت، غالباً ما تكون قد خضعت لعمليات معالجة لاحقة، مثل تغيير الحجم، والاقتصاص، والضغط. كما قد يتعمد الأشخاص التلاعب بالمحتوى لجعل اكتشافه أشد صعوبة.
من جهته، يأمل فريق «إم إن دبليو» في توفير مجموعة شاملة قدر الإمكان من الأمثلة من أدوات توليد مختلفة، وخضعت لأنواع متعددة من عمليات المعالجة اللاحقة؛ لضمان أن تمثل مجموعة البيانات المشهد الحالي للذكاء الاصطناعي التوليدي بشكل دقيق. كما سيتولى الفريق تحديث مجموعة البيانات في كل ربيع وخريف؛ لتعكس أحدث الآثار الرقمية الناتجة عن أدوات التوليد، بالإضافة إلى الحيل المستخدمة لخداع أنظمة الكشف.
ويقرّ الباحثون بأنه رغم إنشاء مجموعة البيانات لمساعدة المطورين في اختبار أدوات الكشف الخاصة بهم، فإن هناك دوماً احتمال استخدامها لتطوير طرق جديدة للتهرب من الاكتشاف. ومع ذلك، فهم يرون أن الحاجة إلى معالجة مشكلة المحتوى المزيف العميق تُعدّ أمراً بالغ الأهمية رغم هذا الاحتمال.
وأوضح روكا: «هدفنا من مشروع (إم إن دبليو) المساهمة في هذا الجهد المشترك — عبر رفع المعايير، وتشجيع الشفافية، والمساعدة في ضمان أن تواكب قدرتنا على تقييم الأصالة التطورات المتسارعة في الذكاء الاصطناعي التوليدي».





