
استغلال التحيز الاستقرائي لتحسين التعميم والسيطرة
يساعد التعلم الآلي في تحويل العديد من المجالات عبر صناعات متنوعة ، كما يعلم أي شخص مهتم بالتكنولوجيا بلا شك. تم تغيير أشياء مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية بشكل كبير بسبب خوارزميات التعلم العميق في السنوات القليلة الماضية ، وتأثيرات هذا التغيير تتسرب إلى حياتنا اليومية. أحد الحقول التي من المتوقع أن يحدث فيها الذكاء الاصطناعي تغييرات جذرية هو مجال الروبوتات. منذ عقود ، تصور كتاب الخيال العلمي روبوتات مدعومة بذكاء اصطناعي تتفاعل مع المجتمع البشري وإما أن تساعد في حل مشاكل الإنسانية أو تحاول تدمير البشر. واقعنا بعيد عن ذلك ، ونحن نفهم اليوم أن إنشاء روبوتات ذكية يمثل تحديًا أصعب مما كان متوقعًا في تلك الأيام. يجب على الروبوتات أن تستشعر العالم وتفهم بيئتها ، ويجب أن تفكر في أهدافها وكيفية تحقيقها ، وتنفيذ خططها باستخدام وسائل تشغيلها.
عندما نفكر نحن البشر في التقاط كوب من الماء من الطاولة ، قد تكون لدينا فكرة عامة عن المسار الذي نود أن نسافر فيه ، ولكن من أجل فعل ذلك فعلاً ، يحتاج دماغنا إلى إرسال تسلسل طويل ومعقد للغاية الإشارات الكهربائية من خلال الجهاز العصبي لتسبب الانقباضات الصحيحة في العضلات. تراقب أنظمتنا الحسية تأثيرات تلك الإشارات الكهربائية (نرى كيف تتحرك يدنا) ويعوض دماغنا سوء التقدير باستخدام هذه الملاحظات. وتسمى هذه العملية التحكم في الملاحظات وهي واحدة من التحديات التي تواجه مصممي الروبوت والباحثين في مجال الروبوتات. لا يحتاج روبوتنا فقط إلى التخطيط لكيفية تحرك ذراعه عبر الفضاء لفهم جسم ما ، بل يجب عليه أيضًا تحديد الفولتية التي يجب تطبيقها على محركاتها حتى يتم تحقيق عزم الدوران والقوى المناسبة وتحقيق الهدف.
يعد التحكم في الملاحظات مجالًا واسعًا ذو نظرية غنية جدًا والعديد من التطبيقات في كل جانب من جوانب حياتنا تقريبًا. المصاعد والسيارات والطائرات والأقمار الصناعية وغيرها من الأشياء اليومية لا تعد ولا تحصى تعتمد على خوارزميات التحكم لتنظيم بعض جوانب عملها الداخلية. تزود نظرية التحكم مهندسي التحكم بالأدوات اللازمة لتصميم خوارزميات تحكم مستقرة وموثوق بها للعديد من الأنظمة المهمة ، وغالبًا ما تعتمد هذه الطرق على فهم قوي للديناميات الأساسية لنظامنا.
عند تصميم نظام التحكم الذي يعمل على استقرار الطائرات وبرامج الطيار الآلي الخاصة بها ، يعتمد المهندسون بشدة على عقود من البحث والخبرة في ديناميات الطائرات. تعتبر كيفية تفاعل طائرة مع التغيرات في زوايا أسطح التحكم فيها عملية جيدة الفهم نسبيًا ، وهذا يوفر فوائد عظيمة عند محاولة معرفة كيفية التحكم في مثل هذا النظام.
لسوء الحظ ، ليست كل الأنظمة مفهومة بهذا المستوى من التفصيل ، وغالبًا ما تكون عملية الحصول على هذه المعرفة طويلة جدًا وتتطلب سنوات عديدة من البحث والتجريب. مع تقدم التكنولوجيا ، يزداد تعقيد الأنظمة التي نبنيها ، مما يخلق العديد من التحديات لمهندسي التحكم.
إن النهج المباشر في عصر التعلم الآلي هذا بالطبع هو تعلم نموذج للديناميات من البيانات التي تم جمعها خلال التجارب. على سبيل المثال ، يمكننا أن نفكر في ذراع روبوتية بمقبض بسيط. تتألف حالة الذراع من الزوايا والسرعات الزاوية في كل من مفاصلها ، والإجراءات التي يمكننا اتخاذها هي الفولتية في كل من المحركات التي بنيت داخل المفاصل. تؤثر هذه الفولتية على حالة الذراع الآلية ، ويمكننا التفكير فيها كدالة:
مما يعني أنه يمكن التفكير في ديناميكياتنا كدولة تقوم بتخطيط تصرفات الدولة للحالات ، ومن خلال التعلم قد نقدرها باستخدام نموذج مثل الشبكة العصبية:
حيث يمثل ثيتا معلمات شبكتنا العصبية. غالبًا ما تتم هذه العملية في خوارزميات تعلم التعزيز المستندة إلى النماذج ، حيث يتم استخدام نموذج تعلّم للديناميكيات لتسريع عملية تعلم السياسة. بشكل مخيب للآمال ، هذا الفشل غالباً ، ويميل النموذج الذي تم تعلمه إلى التعميم بشكل سيء على الحالات التي لم يرها من قبل بالإضافة إلى ظواهر الأخطاء المركبة التي تنشأ عند استخدام النظرة المستقبلية. أحد أسباب فشل النماذج المكتسبة في التعميم جيدًا هو أن العديد من بنيات الشبكات العصبية هي وظائف تقريبية عامة جدًا وبالتالي فهي ذات قدرة محدودة على التعميم على الظواهر غير المرئية.
الشبكات العصبية والتحيز الاستقرائي
دعنا نتصور هذا بمثال بسيط. لنفترض أننا نأخذ عينات من دالة تشبه الخط الخطي وتحاول أن تلائم النموذج الذي تم تعلمه بهذه الوظيفة.
إذا حاولنا تقريب هذه البيانات باستخدام شبكة عصبية بسيطة للتغذية ، فربما نحصل على أداء قوي في نطاق القيم التي تم أخذ عينات منها من البيانات ، وإذا قمنا بعمل جيد فقد نقوم بعمل جيد إلى حد ما حتى إلى حد ما وراء هذا النطاق. ولكن أي شخص عمل مع الشبكات العصبية يعلم أنه إذا قمنا بتدريب شبكة على قيم الإدخال التي تتراوح من 0 إلى 1 (كما في الرسم التوضيحي أعلاه) ومحاولة التنبؤ الإخراج لشيء مثل 1000 ، فإننا سوف تحصل على القمامة كاملة ونطقها كما انتاج. ومع ذلك ، إذا بدلاً من استخدام شبكة عصبية ، فسنستخدم تقريبًا خطيًا كنموذج خاص بنا ، فقد لا نزال نحصل على أداء لائق حتى يتجاوز نطاق مدخلات التدريب. وذلك لأن بياناتنا يتم أخذها من خط خطي صاخب ، واستخدام تقريبي خطي يقلل من مساحة الفرضية للنماذج التي يجب علينا البحث عنها فقط في تلك التي هي مرشحات جيدة في المقام الأول. تعتبر الشبكة العصبية نموذجًا أكثر عمومية بكثير ويمكنها تقريب الوظائف ذات البنية التعسفية ، لكن هذا لا يعني أنها الخيار الأفضل للوظيفة.
ولوحظ وجود ظاهرة مماثلة عند استخدام الشبكات العصبية التلافيفية لمعالجة الصور. من حيث المبدأ ، يمكن لشبكة التغذية العصبية الأمامية تقريب أي وظيفة ، بما في ذلك مصنف الصور ، ولكن هذا قد يتطلب نماذج هائلة ومقدارًا محيرًا من البيانات للقيام به. تقوم الشبكات التلافيفية (أو شبكات CNN) بتنفيذ هذه المهام بكفاءة أكبر بكثير عن طريق استغلال البنية الملازمة للمشكلة ، مثل العلاقة بين البكسلات المجاورة والحاجة إلى خاصية تحول الثبات في الشبكة العصبية.
شبكات الرسم البياني
بالعودة إلى مشكلتنا المتمثلة في تقريب ديناميات النظام الآلي ، فإن إحدى السمات الشائعة للعمارة العصبية التقليدية لهذه المشكلة هي أنها تعامل النظام كمكون واحد. على سبيل المثال ، عند نمذجة ذراعنا الآلية ، يمكن أن يكون لدينا مدخلات لشبكتنا العصبية لتكون متجهًا يحتوي على جميع الزوايا والسرعات الزاوية لذراعنا.
هذه هي الطريقة القياسية التي يتم بها صياغة النظام وفقًا لمعايير RL الشائعة ، ويعمل بشكل عام في مهام تحسين السياسة. لكن عند محاولة تعلم ديناميات ذراعنا الآلية ، فهذا غير كافٍ ، وذلك لأن الذراع الآلية ليست مجرد ناقل للزوايا والسرعات الزاوية. للذراع الآلية هيكل ، وهي مبنية على عدة مفاصل تشترك في نفس الفيزياء الأساسية وتتفاعل مع بعضها البعض بطريقة تتعلق بكيفية تجميعها.
مع وضع ذلك في الاعتبار ، نود أن تقوم بنية الشبكة العصبية لدينا بمعالجة النظام بطريقة ، وكما تبين فيما بعد ، يمكننا القيام بذلك من خلال شبكة عصبية خاصة تعمل على بيانات الرسم البياني.
نشر باحثون من DeepMind من Google بحثًا في عام 2018 بعنوان “التحيزات الاستقلالية الترابطية والتعلم العميق وشبكات الرسم البياني”. في هذه الورقة ، قدّموا بنية شبكة عصبية جديدة أطلقوا عليها شبكات الرسم البياني ، وأظهروا أنه يمكن استخدامها لنمذجة الظواهر الفيزيائية المختلفة التي تحدث في التفاعلات بين الكائنات ، مثل الكواكب في نظام الجاذبية متعددة الأجسام ، بدقة شديدة. جزيئات الجسم وحتى الجمل والجزيئات. إن فكرة الشبكات العصبية التي يمكن أن تعمل على بيانات الرسم البياني تسبق هذه الورقة ، لكن معمارية شبكات الرسم البياني تعمم العديد من المتغيرات السابقة لشبكات الرسم البياني العصبية (GNN) وتوسعها.
يتمثل أحد القيود الواضحة لهذا النهج في أننا بحاجة إلى معرفة شيء ما عن بنية نظامنا من أجل تصميمه كرسم بياني. في بعض الحالات ، قد لا تكون لدينا هذه المعرفة ، ولكن في حالات أخرى كثيرة لدينا ، واستغلال هذه المعرفة يمكن أن يجعل مشكلة التعلم لدينا أسهل بكثير.
فكيف تعمل شبكات الرسم البياني هذه؟ باختصار ، تتكون صياغة DeepMind للرسم البياني من العقد والحواف العادية ، بالإضافة إلى ناقل عام. في كل طبقة من الشبكة ، يتم تحديث كل حافة باستخدام العقدة التي تبدأ منها وتنتهي. بعد ذلك ، يتم تحديث كل عقدة باستخدام مجموعة الحواف التي تنتهي فيها ، ثم يتم تحديث المتجه العمومي باستخدام جميع العقد والحواف.
يمكن تصور هذه العملية في الرسم التوضيحي أعلاه من الورقة ؛ يتم تحديث الحواف الأولى من خلال أخذ ميزاتها إلى جانب ميزاتها في العقد الخاصة بالمرسل والمستقبل وباستخدام شبكة عصبية تلقائية لتحديث ناقل ميزة الحافة. بعد ذلك ، يتم تحديث العقد من خلال أخذ ميزاتها جنبًا إلى جنب مع تجميع لجميع الحواف الواردة ، وتطبيق NN آخر عليها. أخيرًا ، يتم تجميع إجمالي كل العقد والحواف مع المتجه العمومي ويتم استخدام NN آخر لتحديث ميزات المتجه العمومي.
نموذج التحكم التنبؤي مع النماذج المستفادة
في ورقة أخرى نشرت في وقت واحد ، تسمى “شبكات الرسم البياني كمحركات فيزياء قابلة للتعلم من أجل الاستدلال والتحكم” ، استخدم باحثو DeepMind شبكات الرسم البياني لتصميم أنظمة روبوتية مختلفة والتحكم فيها ، في كل من المحاكاة والنظام المادي. لقد صمموا هذه النظم الآلية المختلفة كرسم بياني واستخدموا البيانات لتعلم نموذج من الديناميات. مثال على هذا الرسم البياني من الورقة يمكن رؤيته:
نمذجة النظام بهذه الطريقة ، حقق المؤلفون تنبؤات دقيقة للغاية لحالات المستقبل التي عممت بشكل جيد على الأنظمة ذات الاختلافات في معلماتها ، مثل الجذع الأطول أو الساقين الأقصر.
طريقة التحكم القوية المستخدمة في العديد من التطبيقات هي نموذج التحكم التنبؤي (MPC). في MPC ، يستخدم جهاز التحكم لدينا نموذجًا خطيًا للديناميات للتخطيط المسبق لعدد ثابت من الخطوات ، وأخذ مشتق من دالة التكلفة التحليلية فيما يتعلق بالمسار لتحسينه باستخدام النسب المتدرج. على سبيل المثال ، لنفترض أن لدينا نموذجًا خطيًا لذراعنا الآلية ، ونتمنى أن يتبع المسار المرغوب فيه ، كيف يمكننا إيجاد الإجراءات اللازمة للقيام بذلك؟
افترض أن دالة التكلفة لدينا من هذا النموذج:
مما يعني أنه في كل خطوة نرغب في تقليل المسافة بين المسار المرجعي الذي نود اتباعه والمسار الفعلي ، ونود أيضًا تقليل استهلاك الطاقة إلى الحد الأدنى ، وهو ما يفعله المصطلح الثاني (افترض أن الجهد هو نستخدمها في محركنا).
باستخدام حقيقة أن لدينا نموذجًا خطيًا للديناميات ، يمكننا أن نكتبها مرة أخرى على النحو التالي:
ونظرًا لأن كلٍّ من دالة التكلفة ونموذجنا مختلفان ، فيمكننا أخذ مشتق من دالة التكلفة هذه فيما يتعلق بمجموعة الإجراءات ، وتحسينها بشكل متكرر باستخدام النسب المتدرج.
يمكن القيام بنفس الشيء مع نموذج شبكة الرسم البياني الأكثر تعقيدًا للديناميات. كما أنه قابل للتمييز فيما يتعلق بالإجراءات ، ويمكننا إجراء التحكم التنبؤي النموذجي بطريقة مماثلة.
كما اتضح ، لقد نجح هذا الأمر جيدًا ، كما أن التحكم باستخدام النموذج الذي تم تعلمه كان يعمل في كثير من الحالات ، وكذلك التحكم باستخدام نموذج الفيزياء الحقيقي وراء هذه الأنظمة الآلية المحاكاة. هذه خطوة كبيرة جدًا نحو القدرة على تعلم نماذج الديناميات وسياسات التحكم للأنظمة الآلية المعقدة ، مع متانة عدم اليقين والمرونة في المعلمات المادية للنظام.
إخلاء المسئولية: الآراء المعبر عنها في هذه المقالة هي آراء المؤلف ولا تعكس آراء IBM.
0 responses on "التحكم الآلي مع شبكات الرسم البياني"