الذكاء الاصطناعي الحواري: أنظمة المحادثة، وكلاء الحوار وروبوتات الدردشة Chatbots للكاتب مايكل ماك تير

ظهر هذا الكتاب في سلسلة Synthesis Lectures on Human Language Technologies (محاضرات تخليقية عن تقنيات اللغة البشرية): دراسات تفصيلية كتابية تتراوح بين 50 – 150 صفحة، حول مواضيع محددة في اللسانيات الحاسوبية. والجمهور المُستهدف للكتاب هُم الباحثون والخريّجون من دراسات NLP (معالجة اللغة الطبيعية)، وAI (الذكاء الاصطناعي)، والحقول المشابهة.
أُصنف نفسي ضمن علماء اللسانيات الحاسوبية، والمراجعة التي أقدّمها تنبثق من وجهة نظر باحثةٍ “اعتباطية”، في اللسانيات الحاسوبية، ترغب في معرفة المزيد عن هذا الموضوع أو تبحث عن دليلٍ جيد لتقديم برنامجٍ تدريبيّ عن أنظمة المحادثة. وقد وجدت الكتاب سهلاً جدًا للقراءة وشيّقًا؛ لذا أعتقد بأن الكاتب “ماك تير”، قد نجح في تحقيق كامل هدفه، في كتابة “مقدمة سهلة القراءة عن المفاهيم والمواضيع والتقنيات المتنوعة حول Conversational AI (الذكاء الاصطناعي الحواري)”.
لقد نجح نجاحًا ملحوظًا في المحافظة على المستوى الصحيح للتفاصيل الفنية، وفي عدم الانحراف عن هدف إعطاء لمحةٍ عامة، وفي عدم إشعار القارئ بالتيه داخل تفاصيل متشعبة حول لوغاريتمات محددة. إضافةً إلى ذلك، يمكن لهذا الكتاب أن يكون ذا فائدة كبيرة للأشخاص المحترفين في الذكاء الاصطناعي الحواري؛ وذلك بفضل اكتمال قائمة مصادره بصورةٍ استثنائية: عدد كبير جدًا من الأعمال المبكرة والدراسات الحديثة مُشار إليها ومُعلّق عليها عبر الكتاب بأكمله.
هيكل الكتاب
الكتاب مقسَّم بشكلٍ جيد إلى ستة فصول. بعد المقدمة، هناك فصلان حول نوعين محددين من أنظمة المحادثة: أنظمة قواعد القوانين (الفصل 2)، والأنظمة الإحصائية (الفصل 3). يتبعهما فصل حول وسائل التقييم (الفصل 4)، ومن ثمّ فصل يراجع neural end-to-end systems (الأنظمة العصبية بين الطرفين) الأكثر حداثة (الفصل 5). ويختتم الكتاب بفصلٍ حول التحديات المتنوعة والتوجيهات البحثية المستقبلية في مجال Conversational AI (الذكاء الاصطناعي الحواري)، (الفصل 6).
وقد تبين لي أنّ من المفيد التفرقة بين الأنواع الثلاثة لأنظمة المحادثة: أنظمة قواعد القوانين، والأنظمة الإحصائية القائمة على الوحدات، والأنظمة العصبية بين الطرفين. على الرغم من أنّه -للوهلة الأولى- قد يبدو غريبًا ترتيب الموضوع الخاص بوسائل تقييم النظام بين فصل أنظمة المحادثة الإحصائية القائمة على الوحدات، وبين فصل الأنظمة العصبية بين الطرفين، ولكن بوصفي من القارئات، فأنا أؤمن بأن المناقشة حول تقييم الأنظمة تأتي في مكانها الصحيح في الكتاب؛ لأنها تساعد على فهمٍ أفضل للفرق بين الأنظمة modular (القائمة على الوحدات)، وأنظمة sequence to sequence (من تسلسلٍ إلى تسلسل).
وفي هذه المراجعة، سأناقش الفصول فصلاً فصلاً بالتسلسل نفسه، الذي وردت به في الكتاب.
يشرح (الفصل الأول) -المقدمة- بوضوحٍ ماهية نظام المحادثة، ويوضح الحالات المحددة التي يمكن فيها تقديمه لأداء المهمات. كما يرسم السياق التاريخي والمعاصر للمجال، ويوضح مختلف أنواع الأنظمة الحالية، مع توفير أمثلة عديدة. والفصل يمثّل مقدمة واضحة لموضوع الكتاب، ولكن بوصفي من اللغويات، يجب أن أعترف أنني كنت أرغب في رؤية وصفٍ لغويّ يتعلق بكيفية توصيف المحادثة البشرية.
ويشرح (الفصل الثاني) أنظمة قواعد القوانين. كما يوفر لمحة عامة تاريخية للعمل في المجال تتسمّ بكونها تفصيلية وكاملة، مع الشرح الجيد لعملية تطور المجال.
على وجه الخصوص، كان الرسم البياني والشرح الخاص بهيكل نظام المحادثة مفيديْن جدًا لفهم هذه الأنظمة، ومرّة أخرى، فإن كثرة الأمثلة الواردة في هذا الفصل كانت سببًا في التوضيح وفي سهولة القراءة. ومع ذلك فلو كان ممكنًا اختزال حجم الكتاب -فهو حوالي 180 صفحة بدلاً من المتوسط 50 – 150 صفحة، والذي يمثّل الحجم المُعتاد في سلسلة Synthesis Lectures on Human Language Technologies (محاضرات تخليقية عن تقنيات اللغة البشرية)-، إذ يُنصح باختصار هذا الفصل، والتخلّص من بعض التفاصيل حول أنظمة المحادثة التاريخية.
من (الفصل الثاني) حتى (الفصل الثالث)، يوجد انتقال سلس: بفضل المقدمة السهلة عن بنية نظام المحادثة modular (القائم على الوحدات)، في (الفصل 2)، والتي بفضلها يسهل استيعاب كيفية تهيئة إطار العمل هذا ليصبح نظامًا إحصائيًا. إضافةً إلى ذلك، فالنصّ يشرح بوضوحٍ كيفية استعمال reinforcement learning (التعلّم المعزز)، في إدارة المحادثة، ومرّةً أخرى فكل شيء موضح بالأمثلة بشكلٍ ظريف.
يناقش (الفصل الرابع) كيفية تقييم Conversational AI (الذكاء الاصطناعي الحواري)، وكيفية تجميع بيانات التدريب والتقييم للأنظمة. وعلى المستوى الشخصي وجدتُ المقارنة شيقة جدًا بين التقييم البشري (على سبيل المثال، باستعمال العاملين في Amazon Mechanical Turk)، وبين المقاييس الآلية. ومع ذلك، فقد كنت أتطلّع إلى قراءة مناقشةٍ حول المسائل الأخلاقية التي يمكن أن تتعرض للخطر أثناء تجميع كميّات كبيرة من البيانات البشرية من crowd-sourcing platforms (منصّات التعهيد الجماعي). ولكن بخلاف هذه الملحوظة، فالفصل متكامل جدًا، وكذلك يوفر أوصافًا موجزة حول كيفية تقييم جميع المكونات الفرعية لأنظمة المحادثة.
يقدّم (الفصل الخامس) end-to-end neural dialogue systems (أنظمة المحادثة العصبية بين الطرفين). ويمكن للقارئ الحصول على شرحٍ جيد جدًا بخصوص الفارق بين هذا النوع من الأنظمة، وبين النظام modular (القائم على الوحدات)، (سواءً أكان يعتمد على قواعد القوانين أو موجهًا بواسطة البيانات). إضافةً إلى ما سبق، فقد وجدت التوضيحات الخاصة بالمواضيع التقنية مثل تضمينات الكلمات، و recurrent neural networks (الشبكات العصبية المتكررة) ناجحة إلى حدٍّ ما: فقد كانت سهلة القراءة كما كانت الآليات التقنية المُستعملة في هذه البنيات أكثر وضوحًا. وعلى مدار الكتاب بأكمله، لا سيَّما في هذا الفصل، نرى شرحًا جيدًا للمزايا والسلبيات المتعلقة بمختلف أنواع بنيات النظام. وتتميز قائمة المصادر والمراجع المحدثة بكونها مثيرة للإعجاب، وفي رأييّ ستوفر لمحة عامة جيدة كذلك للقارئ المتقدّم أو المتخصّص. ويصدق هذا القول كذلك على قائمة المدونات المتاحة لبيانات التدريب والتقييم.
ويأتي (الفصل الأخير) ليناقش عددًا كبيرًا من التحديات والتوجيهات المستقبلية بخصوص البحث في مجال أنظمة المحادثة، على سبيل المثال: multi-modality (تعدد الوضعيات)، ومشكلة data sparseness (تشتت البيانات)، ومعالجة ظاهرة الخطاب والمسائل الأخلاقية الواردة ضمن Conversational AI (الذكاء الاصطناعي الحواري). وعلى الرغم من استحواذ جميع موضوعات الكتاب على اهتمامي، إلاّ أن التنوع الكبير يجعل من (الفصل 6) انتقائيًا بحدٍّ كبير؛ ما يمنحك انطباعًا آسرًا بأن هذا الفصل يجمع كل الموضوعات التي لم يتمّ تغطيتها في بقية فصول الكتاب.
وأرى أنّه كان من الممكن عرض عدد من هذه المناقشات في فصولٍ سابقة في الكتاب. على سبيل المثال، أظن أنّ مشكلات معالجة ظاهرة الخطاب والمحادثة مثل: “الجِناس”، كان من الممكن معالجتها كما هو الحال مع طريقة عرض مختلف أنواع الأنظمة، وربما كان من الممكن مناقشتها في (الفصل 4)، (عن التقييم). والأمر نفسه ينطبق على المسائل الأخلاقية. على سبيل المثال، المناقشة الخاصة بكيفية امتلاك معظم الروبوتات bots لأصواتٍ نسائية، والتي يمكن تصنيفها على أنها تحيّز جنسي؛ (نظرًا لأنّ الروبوت يقوم بوظيفة المساعد)، يمكن تقديمها في الوقت نفسه على أنها نوع من عملية إنشاء الخُطَب في (الفصل 2)؛ التحيّزات الجنسية الناتجة عن بيانات تدريب متحيزة، يمكن مناقشتها بعد المقدمة حول المدونة المستعملة لتدريب Conversational AI (الذكاء الاصطناعي الحواري)، (في الفصل 5).
إضافةً إلى ما سبق، فقد خلا الكتاب من موضوعَين أخلاقيين صغيرَين. أوّلهما: حماية بيانات العميل ومسائل الخصوصية: فالناس يقدّمون بياناتهم الشخصية خلال المحادثة مع النظام ومع بعض أنظمة المحادثة من “نوعية المتحدِّث المحاور”، مثل Alexa وGoogle Home الموجودة في المنازل، وقد يتمّ توفير معلومات حساسة. ثانيًا: مسألة ما إذا كان من الأخلاقي دومًا إحالة الناس على جهاز روبوت للحديث معه، بدلاً من إتاحة الفرصة لهم بالحديث مع عنصر بشري. في رأييّ لو كانت هذه النقاشات مطروحة خلال الكتاب، فإن (الفصل 6) سيكون قد نجح في رسم رؤيةٍ واضحة حول التطورات المستقبلية لأنظمة المحادثة.
ختامًا
إنّ كتاب ماك تير هذا يوفر لمحة عامة شديدة الوضوح حول مختلف أنواع أنظمة المحادثة، بدءًا من البدايات الأولى للمجال، وانتهاءً بأحدث الأبحاث الحالية، كما أنّ الكتاب مدعَّم بأمثلةٍ تجعله مثاليًا للطالب والقارئ غير المتخصّص (شريطة امتلاكهم معلومات حول AI (الذكاء الاصطناعي)، أو NLP (معالجة اللغة الطبيعية). وأنا أُوصي -بشدة- بهذا الكتاب للأشخاص الذين يبحثون عن لمحةٍ عامة شاملة حول هذا الموضوع.
———————————–
أولجا سيمينك
مهندسة باحثة في Centre National de la Recherche Scientifique (المركز الوطني للبحث العلمي بفرنسا). عنوان بريدها الإلكتروني هو: [email protected]