جوجل تعتمد على الذكاء الاصطناعي المحسن لمعالجة التحيز بين الجنسين في الترجمة
أظهرت شركة جوجل - Google على مدار سنوات طويلة، انحيازًا للجنس في خدمة الترجمة التابعة لها، من خلال ربط الوظائف المحايدة بين الجنسين بجنس معين، مثل، وظيفة الطبيب للذكور ووظيفة الممرضة للإناث، ولكن في عام 2018، عالج عملاق البحث هذه المشكلة من خلال توفير ترجمة في كلا الجنسين للجمل بلغة محايدة بين الجنسين مثل التركية.
أصدر فريق الذكاء الاصطناعي في شركة جوجل - Google أمس نموذجًا جديدًا أكثر قابلية للتطوير، مما يعني أنه يمكن تطبيقه لترجمة العبارات بلغات أخرى، حيث يجلب هذا الطرح الجديد الدعم للترجمات الخاصة بالجنس من الإنجليزية إلى الإسبانية ومن الفنلندية والمجرية والفارسية إلى الإنجليزية.
وكتب ميلفن جونسون، كبير مهندسي برامج البحث في جوجل - Google، "لقد حققنا تقدمًا كبيرًا منذ إطلاقنا الأولي عن طريق زيادة جودة الترجمات الخاصة بالجنس وتوسيعها أيضًا إلى 4 أزواج لغوية أخرى". "نحن ملتزمون بمواصلة معالجة التحيز بين الجنسين في ترجمة جوجل - Google ونخطط لتوسيع هذا العمل ليشمل الترجمة على مستوى المستندات أيضًا".
وأوضح جونسون، إن المصنف القديم المستخدم للترجمات الخاصة بالجنس من التركية إلى الإنجليزية، التي كانت شاقة للتكيف مع اللغات الجديدة، فشل في إنتاج ترجمات ذكورية وأنثوية بشكل مستقل باستخدام نظام الترجمة الآلية العصبية (NMT). علاوة على ذلك، لا يمكنها عرض ترجمات خاصة بالجنس لما يصل إلى 40٪ من طلبات البحث المؤهلة لأن الترجمتين غالبًا ما لم تكنا متكافئتين تمامًا باستثناء الظواهر المتعلقة بالجنس.
الطريقة الجديدة القائمة على إعادة الكتابة تقوم أولاً بإنشاء الترجمات ثم مراجعتها لتحديد الحالات التي تؤدي فيها عبارة مصدر محايدة من حيث الجنس إلى ترجمة خاصة بالجنس. إذا اتضح أن هذا هو الحال ، فإن أداة إعادة كتابة على مستوى الجملة تبث ترجمة بديلة بين الجنسين ، وتتم مراجعة كل من الترجمتين الأولى والمعاد كتابتها للتأكد من أن الجنس هو الفرق الوحيد.
ووفقًا لشركة جوجل - Google، فإن بناء أداة إعادة الكتابة اشتمل على توليد ملايين الأمثلة التدريبية التي تتكون من أزواج من العبارات ، كل منها يحتوي على ترجمات ذكورية وأنثوية. نظرًا لعدم توفر البيانات بسهولة ، كان على فريق الترجمة من Google التوصل إلى إعادة كتابة المرشح من خلال تبديل الضمائر الجنسية من المذكر إلى المؤنث (أو العكس) ، بدءًا من مجموعة بيانات كبيرة أحادية اللغة. لتطبيق هذه المجموعة من عمليات إعادة الكتابة ، طبق المهندسون نموذجًا لغويًا داخليًا تم تدريبه على ملايين الجمل الإنجليزية لتحديد أفضل المرشحين ، والذي سجل بيانات التدريب التي انتقلت من المدخلات الذكورية إلى الإخراج الأنثوي والعكس بالعكس.
بعد دمج بيانات التدريب من كلا الاتجاهين ، استخدمها الفريق لتدريب نموذج التسلسل إلى التسلسل المستند إلى محول من طبقة واحدة. بعد ذلك ، أدخلوا متغيرات علامات الترقيم وحالة الغلاف في بيانات التدريب لزيادة قوة النموذج ، بحيث يمكن للنموذج النهائي أن ينتج بشكل موثوق إعادة كتابة المذكر أو المؤنث المطلوب بنسبة 99٪ من الوقت.
تم تقييمها على مقياس طورته Google يسمى تقليل الانحياز، والذي يقيس الانخفاض النسبي للانحياز بين نظام الترجمة الجديد والنظام الحالي (حيث يتم تعريف "التحيز" على أنه اختيار الجنس في الترجمة غير محدد في المصدر) ، يقول جونسون يؤدي النهج الجديد إلى تقليل التحيز بنسبة ≥90٪ للترجمات من المجرية والفنلندية والفارسية إلى الإنجليزية. تحسن تخفيض التحيز للنظام الحالي من التركية إلى الإنجليزية من 60٪ إلى 95٪ ، ويقوم النظام بتشغيل ترجمات خاصة بالجنس بمتوسط دقة 97٪ - أي عندما يقرر عرض الترجمات الخاصة بالجنس ، فمن الصحيح 97٪ من الوقت.
يأتي طرح نظام ترجمة Google المحسّن بعد أشهر من إزالة Google للقدرة على تصنيف الأشخاص في الصور على أنهم "رجال" أو "نساء" باستخدام Cloud Vision API. بشكل منفصل ، في يناير 2018 ، حظرت Google Smart Compose ، وهي ميزة Gmail تقترح تلقائيًا جملًا للمستخدمين أثناء الكتابة ، من اقتراح الضمائر المستندة إلى الجنس.
يُعد اتباع نهج محايد جنسانيًا لترجمة اللغة ورؤية الكمبيوتر جزءًا من جهد Google الأكبر للحد من التحيز في أنظمة الذكاء الاصطناعي. تستخدم شركة Mountain View الاختبارات التي طورها فريق أخلاقيات الذكاء الاصطناعي لديها للكشف عن التحيز وحظرت الشتائم والافتراءات العرقية وإشارات منافسي الأعمال والأحداث المأساوية من تقنياتها التنبؤية.