العنوان: من التّيسير وحتّى عمليّات الاحتيال: الصّوت الاصطناعيّ مصنوعًا بحسب الطّلب

إنّ التّقنيّات الّتي "تستنسخ" الأصوات البشريّة، بما في ذلك أصوات محدَّدة لأفراد من العائلة أو لشخصيّات عامّة، تتيح إنتاج كلام اصطناعيّ بصوتٍ من اختيارنا. هذه التّكنولوجيا تعني فُرَصًا جديدة– كما وتعني مخاطر جديدة أيضًا.

لنفترض أنّكم تلقّيتم مكالمة هاتفيّة من رقم مجهول. وعلى الطّرف الآخر، هناك صوت خائف لشخص قريب ما، يمرّ بحالةً طارئة ويطلب منكم مساعدة ماليّة. هل ستتردّدون قبل مساعدته؟ ماذا لو علمتم أنّ عمليّات الاحتيال باستخدام تقليد الصّوت الاصطناعيّ قد تزايدت في السّنوات الأخيرة، وأنّ هناك حالات تزوير أصوات لأفراد من العائلة أو لأشخاص يعملون في مجال إنفاذ القانون أو لمدراء ماليّين معتمَدين قد تمّ الإبلاغ عنها بالفعل؟ لا نتحدّث هنا عن محتالين- والّذين هم أيضًا مقلِّدون ممتازون؛ بل نتحدّث عن ما يعرف بـ "استنساخ الصّوت" (Voice Cloning): استخدام عيّنة من صوت إنسان ما لإنشاء نسخة صوتيّة مماثلة بشكلٍ مخادع بواسطة وسائل تكنولوجيّة، وبالتّالي إنتاج أيّ سيناريو صوتيّ يمكن تصوّره.

مقلّد متعلّم

إحدى التّطويرات التّكنولوجيّة الّتي تُتيح استنساخ الصّوت تعود إلى شركة مايكروسوفت. لقد طوّرت الشّركة أداةً مبتكَرةً تُدعى "VALL-E"، الّتي تُتيح "استنساخ" الصّوت، وإنشاء صوت مماثلٍ بناءً على عيّنة من الكلام لا يتجاوز طولها ثلاث ثوانٍ فقط. إنّ وتيرة تطوير أدوات من هذا النّوع آخذة بالتّسارع في السّنوات الأخيرة، وهي مرتبطة أيضًا بتحويل نصٍّ مكتوب إلى صوت اصطناعيّ، وخلق صوت له "شخصيّة"، والّذي هو تقليد موثوق للغاية، ليس للصّوت البشريّ بشكل عامٍّ فحسب؛ وإنّما للصّوت المحدّد لشخص أو لأشخاص معيّنين، على وجه الخصوص. قد يكون لتحويل النّصّ المكتوب إلى صوتٍ العديدُ من الاستخدامات، من بينها إتاحة الوصول للمكفوفين وضعاف البصر وتطوير اتّصالات أبسط وأكثر طبيعيّة بين الآلات والبشر، ولكنّ استنساخ صوتٍ معيّن أصبح يُستَخدَم في اتّجاهات تتجاوز الحدود الأخلاقيّة.

في أيلول الماضي، تُوفّي الممثّل جيمس إيرل جونز، الّذي أدّى بصوته الشّخصيّة الشّريرة في سلسلة أفلام "حرب النّجوم"، شخصيّة دارث فيدر- لكنّ مشاركته في خلق الشّخصيّة لم تنتهِ عند هذا الحدّ، فقبل عاميْن من وفاته، سمح جونز لشركة ديزني باستخدام تسجيلاته السّابقة، من أجل إنتاج مقاطع صوتيّة جديدة بشكلٍ صناعيّ بصوتٍ "مُستنسَخ" يبدو مثل صوته، حتّى بعد وفاته، لاستخدامها في أفلام مستقبليّة. إنّ إدخال صوت شخصٍ معيّن إلى الأنظمة الّتي تخلِق كلامًا اصطناعيًّا لأغراض التّدريب يُتيح إنشاء مقاطع صوتيّة موثوقة للغاية ومخصّصة بحسب الطّلب. ولكن سرعان ما ظهر الجانب المظلم للتّكنولوجيا، في صورة احتيالٍ وإساءة استخدام للصّوت المستنسَخ لشخصيّة معروفة.

قبل عاميْن من وفاته، سمح جونز لشركة ديزني باستخدام تسجيلاته السّابقة من أجل إنتاج مقاطع صوتيّة جديدة بشكلٍ صناعيّ. جونز والشّخصيّة الأشهر الّتي تكلّمت بصوته، دارث فيدر | Shutterstock, Stefano Buttafoco, ويكيمديا, John Mathew Smith 2001 / CC BY-SA 2.0

كل الأصوات الّتي من حولنا

إنّ الأنظمة الّتي تتلقّى كمّيّات هائلة من عيّنات الأصوات بهدف التّعلّ ــ حوالي 60 ألف ساعة صوت من أفواه حوالي 7 آلاف متحدّث مختلف، وهذا في حالة "VALL-E" من مايكروسوفت تقوم بتوصيف الرّوابط الّتي بين الكلمات المكتوبة والمدى الصّوتيّ (مدى الأصوات الّتي يُنتِجها شخص أو آلة موسيقيّة). يتمّ تقسيم الكلمات المكتوبة إلى وحدات صوتيّة- الأصوات الأساسيّة الّتي تكوِّنها، ويتمّ ترميزُ الملف الصّوتيّ إلى قِيَم رقميَة تمثّل خصائص الصّوت. إنّ توصيف الرّوابط بين الوحدات الصّوتيّة وبين الصّوت الّذي تنتجه يسمح بعد ذلك للنّظام المتعلِّم، الّذي يتلقّى صوتًا جديدًا ونصًّا مطلوبًا، بإنتاج النّصّ بهذا الصّوت.

إنّ التّنوّع والتّعدّد الموجوديْن في قاعدة البيانات الضّخمة، يجعل من الممكن وصف مدًى واسع من الأصوات، وكلام ذو وتيرة متغيّرة وظلال دقيقة من التّعبيرات العاطفيّة، بحيث أنّ ذات الجملة يمكن سماعها بنبرة غاضبة أو مسلّية أو متوتّرة أو يائسة. وإلى جانب صوت الكلام، يمكن أيضًا تقليد البيئة الصّوتيّة الّتي يتمّ التّحدّث فيها- فالأصوات الّتي نسمعها عبر الهاتف، على سبيل المثال، غالبًا ما تكون متأثّرة أيضًا من خصائص الجهاز الّذي نتّصل منه، أو الغرفة الّتي نتحدّث منها. تُتيح هذه التّفاصيل الدّقيقة إمكانيّة إنشاء محادثة اصطناعيّة ذات مصداقيّة عالية للغاية، والّتي يمكنها أن تمحو الشّكوك على الفور.

وبما أنّ المطلوب هو عيّنة صوتيّة قصيرة جدًّا من أجل "الاستنساخ"، فمن الممكن عمليًّا تزوير ملفات صوتيّة لجميع الأصوات المسجّلة والمحمَّلة على شبكة الإنترنت- مبدئيًّا، من دون حتّى أن يكون المتحدّثون على علم بالتّسجيل. بالإضافة إلى ذلك، حتّى لو لم يكن الصّوت متاحًا للاستخدام بحُرّيّة على الشّبكة، فإنّ الأشخاص ذوي النّوايا السّيّئة يمكنهم الاتّصال بالهاتف وتسجيل المحادثة، دون الحاجة حتّى إلى أن يتحدّثوا، تكفي فقط الأسئلة الواردة من الطّرف الآخر من الخطّ، مثل: "مرحبًا؟ من هناك؟ من المتّصل؟ لا أستطيع سماع أيّ شيء"، كي توفِّر عيّنة صوتيّة طويلة بما يكفي لإنتاج صوت اصطناعيّ.

حتّى لو لم يكن الصّوت متاحًا للاستخدام بحُرّيّة عبر الإنترنت، يمكن للأشخاص ذوي النّوايا السّيّئة الاتّصال بالهاتف وتسجيل المحادثة. تسجيل شخص يستخدم الهاتف | shutterstock, Tero Vesalainen

وعد وتهديد في آنٍ واحد

بالإضافة إلى عمليّات الاحتيال الماليّة الّتي تُذكّرنا بمكالمات "المقلب" المُتطوّرة، هناك أيضًا خطر على الأنظمة الّتي تستخدم التّعرّف على الصّوت كوسيلة للوصول إلى الحساب، مثل بعض البنوك على سبيل المثال. لقد دفع الوعي بهذه المخاطر شركة OpenAI، مطوِّرة ChatGPT، إلى التّريّث قليلًا قبل إطلاق مُنشِئ الصّوت الخاصّ بها للعامّة. تعتمِد هذه الأداة على عيّنة صوتيّة مُدّتها 16 ثانية، ووفقًا لمنشورات الشّركة، يمكنها إنتاج جمل بمجموعة متنوّعة من اللّغات- حتّى لو أنّ المتحدّث لا يتحدّث بها على الإطلاق. هذه التّكنولوجيا بإمكانها التّقريب بين النّاس من مختلف أنحاء العالم، حتّى لو لم يكن لديهم لغة مشتركة على الإطلاق، وتسمح لنا بالتّعبير عن أنفسنا بحرّيّة في البلدان الأجنبيّة الّتي لا نتحدث لغةَ سكّانها. ومع ذلك، يبدو أنّ المخاطر تفوق الفوائد في الوقت الرّاهن.

من منظورٍ نِظاميّ أكثر، فإنّ تنظيم مثل هذه الأنظمة وتقييدها، من شأنه أن يساعد في الحدّ من التّطويرات الّتي لم يتمّ تطوير نظام حماية جيّد بما فيه الكفاية لها حتّى الآن. في الوقت ذاته، يجري تطوير أدوات هدفها التّحقّق من صحّة المقاطع الصّوتيّة، والبحث عن أدلّة تُظهِر ما إذا تمّ إنشاء المقاطع الصّوتيّة بشكلٍ مصطنع أو تمّ تسجيلها مسبقًا. وحتّى ذلك الحين، فإنّ الوعي والحذر يمكن أن يُشكّلا في حدّ ذاتهما آليّة حماية مهمّة. يجدر الشّكّ في المكالمات الواردة من أرقام مجهولة، ولتصاحبكم القوّة في هذا.