كانت القدرة على حل مجموعة واسعة من المهام من مجالات التطبيق المختلفة باستخدام خوارزمية واحدة للأغراض العامة واحدة واحدة فقط أحد التحديات الأساسية لصناعة الذكاء الاصطناعي (الذكاء الاصطناعي).
اليوم ، حققت Google DeepMind طفرة جديدة في هذا الاتجاه.
لقد طوروا خوارزمية عامة من الجيل الثالث من Dreamer يمكنها التفوق على الأساليب الخاصة في أكثر من 150 مهمة مختلفة بتكوين واحد فقط.
وفقا للتقارير ، فإن Dreamer هي أول خوارزمية تجمع الماس في Minecraft من البداية بدون بيانات أو دروس بشرية ، والتي يمكن أن تحل مشكلات التحكم الصعبة دون إجراء الكثير من التجارب ، مما يجعل التعلم المعزز قابلا للتطبيق على نطاق واسع.
相關研究論文以 إتقان مهام التحكم المتنوعة من خلال النماذج العالمية 為題,於今日發佈在權威科學期刊 Nature 上。
كيف يتم تحسين Dreamer؟
يمكن تطبيق خوارزميات التعلم المعزز الحالية بسهولة على مهام مماثلة ، لكن تطبيقها على تطبيقات جديدة يتطلب الكثير من الخبرة البشرية والتجريب. غالبا ما تستخدم خوارزميات أكثر تخصصا لتحقيق أداء أعلى ، مما يمثل تحديات فريدة لمجالات التطبيق المختلفة ، مثل التحكم المستمر ، ومكافآت دقة الحركة المنفصلة ، وإدخال الصور ، والبيئات المكانية ، وألعاب الطاولة.
يتطلب تطبيق خوارزميات التعلم المعزز على مهام جديدة تماما ، مثل الانتقال من ألعاب الفيديو إلى مهام الروبوتات ، الكثير من الجهد والخبرة وموارد الحوسبة لضبط المعلمات الفائقة للخوارزمية. تصبح هذه الهشاشة عنق الزجاجة لتطبيق التعلم المعزز على المشكلات الجديدة ، مع الحد أيضا من قابلية تطبيق التعلم المعزز على النماذج أو المهام باهظة الثمن حسابيا.
كان إنشاء خوارزمية للأغراض العامة يمكنها إتقان مجالات جديدة دون إعادة التكوين تحديا مركزيا في مجال الذكاء الاصطناعي ، وسيوفر مجموعة واسعة من التطبيقات العملية لتعزيز التعلم.
تم تحقيق هذا الاختراق من خلال خوارزمية Dreamer من الجيل الثالث التي اقترحتها Google DeepMind.
وفقا للمقدمة ، يتكون Dreamer من 3 شبكات عصبية: يتنبأ النموذج العالمي بنتيجة الإجراءات المحتملة ، ويحكم المعلق على قيمة كل نتيجة ، ويختار الممثل الإجراء لتحقيق النتيجة الأكثر قيمة.
الشكل: عملية تدريب الحالم
عندما يتفاعل المحرك مع البيئة ، يتم تدريب هذه الأقسام 3 في وقت واحد بناء على تجربة إعادة التشغيل. للنجاح في مجالات مختلفة ، يحتاج 0 جزء إلى التكيف مع سعات الإشارة المختلفة وتحقيق التوازن القوي في الظروف ضمن أهدافها.
يتعلم النموذج العالمي تمثيلات مدمجة للمدخلات الحسية عن طريق التشفير التلقائي وتمكين التخطيط من خلال التنبؤ بالتمثيلات والمكافآت المستقبلية للإجراءات المحتملة. تتعلم الشبكات العصبية للممثل والمعلق السلوك بحتة من تمثيلات المسار المجردة التي تنبأ بها نموذج العالم. في عملية الاستكشاف ، يتعلم الممثلون اختيار الإجراء الذي يزيد من الفائدة من خلال تنظيم الانتروبيا.
يستخدم Dreamer وظيفة symlog لإجراء تحويلات مراقبة المتجهات على أهداف إدخال ووحدة فك التشفير ، وفقدان الحرارة المزدوج المتزامن لمؤشر المكافأة والمنتقد. تتيح هذه التقنيات التعلم القوي والسريع في العديد من المجالات المختلفة.
كيف يعمل التأثير؟
在固定超參數下,研究團隊從基準、《我的世界》、消融、擴展性 4 個角度評估了 Dreamer 在 8 個領域、超過 150 項任務的通用性。
أجروا أولا بحثا تجريبيا مكثفا لتقييم المعايير ، بما في ذلك الإجراءات المستمرة والمنفصلة ، والمدخلات المرئية ومنخفضة الأبعاد ، والمكافآت الكثيفة والمتفرقة ، ومقاييس المكافآت المختلفة ، والعوالم ثنائية وثلاثية الأبعاد ، والتوليد الإجرائي.
وجد أن Dreamer يمكن أن يتطابق أو حتى يؤدي أداء أفضل من أفضل الخوارزميات الخاصة في المجالات القابلة للتطبيق ، سواء كانت قائمة على النموذج أم لا.
النتيجة المعيارية
تدور أحداث Minecraft في عالم ثلاثي الأبعاد فريد من نوعه يتم إنشاؤه عشوائيا. خلال هذا الوقت ، سيحتاج اللاعبون إلى العثور على سلسلة من 20 عنصر من المكافآت النادرة من خلال العثور على الموارد وأدوات التصنيع. يستغرق الأمر حوالي 0 دقيقة حتى يحصل اللاعبون البشريون ذوو الخبرة على الماس.
Dreamer 是第一個從零開始在《我的世界》中收集鑽石的演算法,不像 VPT(視頻預訓練)或自適應課程要求使用人工數據,這實現了 AI 領域的一個重要突破。所有 Dreamer 智慧體都在 1 億個環境步數內發現鑽石。
الصورة: أداء Dreamer في Minecraft Diamond Challenge
فيما يتعلق بالاجتثاث ، قاموا باستمرارهم لتقنيات المتانة وإشارات التعلم على مجموعات مختلفة من 14 مهمة ، ووجدوا أن جميع تقنيات المتانة ساهمت في تحسين الأداء ، وأبرزها توازن Kulbach-Lebler والبتات الحرة لهدف النموذج العالمي ، يليه تطبيع العودة والانحدار الحراري المزدوج symexp للتنبؤ بالمكافأة والقيمة.
لدراسة تأثير النموذج العالمي ، قاموا بالتخلص من إشارات التعلم الخاصة ب Dreamer عن طريق منع تدرجات التنبؤ بالمكافآت والقيمة الخاصة بالمهمة أو التدرجات المستقلة عن المهام من تشكيل تمثيلاتهم.
في حين أن خوارزميات التعلم المعزز السابقة كانت تعتمد عادة فقط على إشارات التعلم لمهمة معينة ، اعتمدت Dreamer بشكل أساسي على الأهداف غير الخاضعة للإشراف لنموذجها العالمي. هذا يفتح إمكانية وجود متغيرات مستقبلية من الخوارزميات التي تستفيد من البيانات غير الخاضعة للإشراف للتدريب المسبق.
استئصال الحالم
在擴展性方面,他們在 Crafter 和 DMLab 任務上訓練了參數從 1200 萬到 4 億不等的 6 個模型,並採用了不同的重放比例,這會影響智慧體執行梯度更新的次數。增加模型大小可直接轉化為更高的任務性能和更低的數據要求,梯度步數的增加進一步減少了學習成功行為所需的交互。
تظهر النتائج أن Dreamer يتعلم بقوة في أحجام النماذج المختلفة ونسب إعادة التشغيل ، مما يوفر طريقة يمكن التنبؤ بها لتحسين الأداء عن طريق توسيع نطاق موارد الحوسبة.
الصورة: امتداد Dreamer القوي
كخوارزمية عالية الأداء تعتمد على نموذج عالم التعلم ، يمهد Dreamer الطريق لاتجاهات البحث المستقبلية ، بما في ذلك نقل المعرفة العالمية إلى الوكلاء من مقاطع الفيديو عبر الإنترنت ، وتعلم نموذج عالمي واحد عبر المجالات ، مما يسمح للوكلاء بتجميع المزيد والمزيد من المعرفة والقدرات العامة.