معالجة اللغات الطبيعية (Natural Language Processing, NLP) هو إحدى المجالات التي يهتم بها العاملون في مجال الذكاء الاصطناعي. خلال العقود الماضية، تطورت قدرة الحاسب الآلي على التعامل مع اللغات البشرية (نصوص وأصوات)، كل هذا بفضل خوارزميات معقدة جدًا تستطيع تحليل ما يُقال لها أو ما يُضخ إليها من نصوص بشرية. إحدى أبرز هذه التقنيات هي مترجم جوجل الذي تفوق نسبيًا على كل أقرانه في دقته؛ وأيضًا برنامج سيري Siri في أجهزة الآيفون والذي يستطيع تمييز الأصوات البشرية ومعالجتها ثم الاستجابة لها بدقة مذهلة؛ كما نراها أيضًا عندما يقوم محرك البحث جوجل أو لوحات المفاتيح في هواتفنا المحمولة بتصحيح الكلمات أو إكمال الجُمل.

ضمن العديد من التطبيقات التي تُدرس وتُطوّر في معالجة اللغات الطبيعية، هنالك مجال إنتاج اللغة، أي أن يقوم الحاسب الآلي بكتابة جُمل أو مقالات أو قصة أو حتى قصيدة دون تدخل بشري. قد يبدو الأمر مستحيلًا عند أول وهلة، ولكن الشركات الكبرى مثل جوجل استطاعت أن تقطع شوطًا كبيرًا في هذا المجال.

وقبل إكمال الحديث، أود أن أقف لأتحدث عن إحدى خواص اللغة البشرية التي تُهمنا في تطوير معالجة اللغات البشرية، ألا وهي البُنيتين الظاهرية والعميقة:

  1. البُنية الظاهرية هي البنية التي تهتم بترتيب الكلمات في الجملة وعلاقاتها ببعضها البعض، مثل أن تكون الكلمة بعد حروف الجر أسماء وليس أفعال. تختلّ هذه البنية باختلال هذا الترتيب. فجملة مثل “سوف الحديقة ولكن ليست” هي جملة ذات تركيب لغوي معطوب تمامًا فضلًا عن كونها غير مفهومة. (ينبغي الإشارة إلى أن الجمل المكسّرة ليست بالضرورة جملًا غير مفهومة، وحديث الأطفال أو الوافدين الأجانب شاهد على ذلك).

  2. أما البُنية العميقة فهي التي تتجاوز ظاهر الكلام لتصل إلى معناه، أي أنها تهتم بالترابط المعنوي بين الكلمات. قد تكون الجملة :“الطاولة تنمو ولكن عليك أن تعلم وتربح السجادة لكي لا أدري” جملةً سليمة جدًا من الناحية اللغوية، أي من ناحية العلاقات النحوية بين الكلمات، ولكنها قطعًا غير سليمة في معناها، أي أنه لا معنى لها وإن استقامت بُنيتها الظاهرية.

بالرجوع إلى الذكاء الاصطناعي، قلنا أن هناك من قطع شوطًا كبيرًا في تعليم الآلة إنتاج اللغة، وقد تمّ ذلك عبر ضخ مليارات النصوص وملايين الكتب إلى داخل هذه الحواسيب. هذه الحواسيب تعمل بخوارزميات معقدة تقوم بتحليل النصوص واكتشاف العلاقات بين الكلمات وحساب احتمالات ظهور الكلمات واحتمالات ترابط الكلمات فيما بينها. فمثًلا، الكلمة (أنا) تتكرر داخل النصوص العربية أكثر من كلمة (هاتف)، وتأتي غالبًا في أول الجملة، وما بعدها من كلمات تكون إما أسماء أو أفعالًا أو حروف جر. وهكذا يتم تحليل كل النصوص والكلمات وتوزيع هذه الاحتمالات عليها. بعد إتمام هذه المهمة، يكون الحاسب مستعدًا لإنتاج نصوص سليمة لغويًا (أي أنها سليمة في بُنيتها الظاهرية)، ولكنها لا تعطي أي معنى مفيد للإنسان (أي أنها غير سليمة في بنيتها العميقة)، إلا في حالات نادرة جدًا على نطاق الجمل القصيرة والتي تُنسب إلى الصدفة.

بالطبع، تم تطوير هذه الحواسيب لكي تكون قادرة على إنتاج جمل قصيرة وذات معنى مفهوم دون الحاجة إلى الصدفة باستخدام الفكرة الأساسية نفسها (معالجة النصوص واكتشاف العلاقات والأنماط)، ولكنها غير قادرة على إنتاج جمل طويلة مترابطة (بعد).

الفيلم المرفق في الأسفل هو فيلم من تأليف الذكاء الاصنطاعي. قام منتج الفلم بضخ نصوص من عشرات الأفلام البشرية، ثم قام بضخ العديد من المشاهد السينمائية من أفلام الخيال العلمي إلى داخل الكمبيوتر، أما باقي الفلم من حوارات ومشاهد وحركات الممثلين فهو من إنتاج الذكاء الاصطناعي ١٠٠٪. بل وحتى أغنية الفلم هي قصيدة موزونة من تأليف الذكاء الاصطناعي.

لغة الحوار هي لغة سليمة جدًا لغويًا، وكل كلمة تقع في مكانها الصحيح، ولكنها حوارات لا تعطي أي معنى إلا في نطاق الجمل القصيرة جدًا جدًا. الممثلون نجحوا في تحويل هذه “الخرابيط” إلى مشهد سينمائي متقن (فنيًا، على الأقل!).