EITC/AI/ARL Advanced Reinforcement Learning युरोपेली IT प्रमाणीकरण कार्यक्रम हो जुन कृत्रिम बुद्धिमत्तामा सुदृढीकरण शिक्षाको लागि DeepMind को दृष्टिकोण हो।
EITC/AI/ARL Advanced Reinforcement Learning को पाठ्यक्रमले यस EITC प्रमाणीकरणको सन्दर्भको रूपमा विस्तृत भिडियो डिडैक्टिक सामग्रीलाई समेटेर निम्न संरचना भित्र आयोजित DeepMind को परिप्रेक्ष्यबाट सुदृढीकरण सिकाउने प्रविधिहरूमा सैद्धान्तिक पक्षहरू र व्यावहारिक सीपहरूमा केन्द्रित छ।
सुदृढीकरण लर्निंग (आरएल) मेशिन शिक्षाको क्षेत्र हो जुन कसरी बुद्धिमान इजेन्टले वातावरणमा कार्यहरू गर्नुपर्दछ संचयी इनामको धारणा अधिकतम बनाउनको लागि। सुदृढीकरण लर्निंग तीन आधारभूत मेशिन लर्निंग प्याराडिग्म्स मध्ये एक हो, पर्यवेक्षित शिक्षा र असक्रिय पर्यवेक्षण संगै।
सुदृढीकरण शिक्षा लेबल लगाएको इनपुट/आउटपुट जोडी प्रस्तुत नगरी, र उप-इष्टतम कार्यहरू स्पष्ट रूपमा सुधार्न आवश्यक पर्दैन। यसको सट्टा फोकस अन्वेषण (अज्ञात क्षेत्रको) र शोषण (वर्तमान ज्ञानको) बीचको सन्तुलन खोज्नमा हो।
वातावरण सामान्यतया एक मार्कोभ निर्णय प्रक्रिया (MDP) को रूप मा भनिएको छ, किनभने यस सन्दर्भको लागि धेरै सुदृढीकरण सीख्ने एल्गोरिदम गतिशील प्रोग्रामिंग प्रविधिको प्रयोग गर्छन्। शास्त्रीय गतिशील प्रोग्रामिंग विधिहरू र सुदृढीकरण लर्निंग एल्गोरिदमहरू बीचको मुख्य भिन्नता भनेको यो हो कि उत्तरार्धले MDP को सही गणितात्मक मोडेलको ज्ञान लिदैन र उनीहरूले ठूला MDPs लाई लक्षित गर्छन् जहाँ सही विधिहरू अपरिहार्य हुन्छन्।
यसको सामान्यताको कारण, सुदृढीकरण लर्निंग धेरै विषयहरूमा अध्ययन गरिन्छ, जस्तै खेल सिद्धान्त, नियन्त्रण सिद्धान्त, अपरेशन रिसर्च, सूचना सिद्धान्त, सिमुलेशन-आधारित अप्टिमाइजेसन, मल्टि-एजेन्ट प्रणाली, झुंड बुद्धि, र तथ्या .्क। अपरेशन अनुसन्धान र नियन्त्रण साहित्य मा, सुदृढीकरण शिक्षा अनुमानित गतिशील प्रोग्रामिंग, वा न्यूरो गतिशील प्रोग्रामिंग भनिन्छ। सुदृढीकरण शिक्षामा रुचिका समस्याहरू पनि इष्टतम नियन्त्रणको सिद्धान्तमा अध्ययन गरिएको छ जुन अधिकतम इष्टतम समाधानको अस्तित्व र विशेषतासँग सम्बन्धित छ, र उनीहरूको सटीक गणनाको लागि एल्गोरिदम, र कम सिक्ने वा अनुमानितको साथमा, विशेष गरी अनुपस्थितिमा। वातावरण को एक गणितीय मोडेल। अर्थशास्त्र र खेल सिद्धान्तमा, सुदृढीकरण शिक्षा सीमित कसरी विवादास्पद तर्कसंगतमा उत्पन्न हुन सक्छ भनेर वर्णन गर्न प्रयोग गर्न सकिन्छ।
आधारभूत सुदृढीकरणलाई एक मार्कोभ निर्णय प्रक्रिया (MDP) को रूपमा मॉडल गरिएको छ। गणितमा, एक मार्कोभ निर्णय प्रक्रिया (MDP) एक छुट्टै समय stochastic नियन्त्रण प्रक्रिया हो। यसले मोडलि decision निर्णयको लागि गणितात्मक रूपरेखा प्रदान गर्दछ जहाँ परिणामहरू आंशिक रूपमा अनियमित हुन्छन् र आंशिक रूपमा निर्णय निर्माताको नियन्त्रणमा हुन्छन्। MDPs गतिशील प्रोग्रामिंगको माध्यमबाट समाधान गरिएको अप्टिमाइजेसन समस्याहरूको अध्ययन गर्नका लागि उपयोगी छ। MDP हरू कम्तिमा १ 1950 .० को दशक भन्दा पहिले नै चिनिन्थ्यो। मार्कोभ निर्णय प्रक्रियाहरूमा अनुसन्धानको एक मुख्य निकाय रोनाल्ड होवार्डको १ 1960 book० पुस्तक डायनामिक प्रोग्रामिंग र मार्कभ प्रोसेसबाट आएको हो। तिनीहरू रोबोटिक्स, स्वचालित नियन्त्रण, अर्थशास्त्र र निर्माण सहित धेरै विषयहरूमा प्रयोग गरिन्छ। MDPs को नाम रूसी गणितज्ञ Andrey Markov बाट आए किनकि उनीहरु मार्कोभ चेनको विस्तार हो।
प्रत्येक समय चरणमा, प्रक्रिया केही राज्य एसमा हुन्छ, र निर्णय निर्माताले राज्य एसमा उपलब्ध कुनै पनि कार्य छनौट गर्न सक्छ। प्रक्रिया अर्को पटक चरणमा प्रतिक्रिया गर्दछ अनियमित रूपमा नयाँ राज्य एसमा सर्दै, र दिँदै निर्णय निर्माता एक अनुकूल पुरस्कार रा (एस, एस ')।
प्रक्रिया आफ्नो नयाँ राज्य एस 'मा सार्न सक्ने सम्भावना छनोट गरिएको कार्य द्वारा प्रभावित छ। विशेष रूपमा, यो राज्य संक्रमण समारोह Pa (S, S ') द्वारा दिइएको छ। यसैले, अर्को राज्य S वर्तमान राज्य S मा निर्भर गर्दछ र निर्णय निर्माताको कार्य a। तर S र a दिईयो, यो सर्तमा सबै अघिल्ला राज्यहरु र कार्यहरु बाट स्वतन्त्र छ। अर्को शब्दहरुमा, एक MDP को राज्य संक्रमण मार्कोभ सम्पत्ति सन्तुष्ट।
मार्कोभ निर्णय प्रक्रिया मार्कोभ चेनको एक विस्तार हो; फरक कार्यहरू (छनोट अनुमति दिँदै) र पुरस्कार (प्रेरणा दिने) को थप हो। यसको विपरीत, यदि प्रत्येक राज्यको लागि केवल एउटा कार्य अवस्थित छ (उदाहरणका लागि "प्रतीक्षा गर्नुहोस्") र सबै पुरस्कारहरू समान (जस्तै "शून्य") हुन् भने, एउटा मार्कोभ निर्णय प्रक्रियाले मार्कोभ चेनलाई घटाउँछ।
एक सुदृढीकरण शिक्षा एजेन्टको असक्रिय समय चरणहरूमा यसको वातावरणसँग अन्तर्क्रिया गर्दछ। प्रत्येक पटक t मा, एजेन्टले हालको राज्य S (t) र इनाम r (t) प्राप्त गर्दछ। त्यसपछि उपलब्ध कार्यहरूको सेटबाट एक कार्य a (t) छनोट गर्दछ, जुन पछि वातावरणमा पठाइन्छ। वातावरण नयाँ राज्य S (t + 1) मा सर्छ र ट्रान्समिशनसँग सम्बन्धित पुरस्कार r (t + 1) निर्धारित गरिन्छ। एक सुदृढीकरण शिक्षा एजेन्टको लक्ष्य अपेक्षित संचयी इनाम अधिकतम पार्ने नीति सिक्नु हो।
MDP को रूपमा समस्या बनाउँदा एजेन्टले प्रत्यक्ष वातावरणीय अवस्था अवलोकन गर्दछ। यस अवस्थामा समस्या पूर्ण अवलोकन योग्यता छ भनिन्छ। यदि एजेन्टको मात्र राज्यहरूको उपसमूहमा पहुँच छ, वा यदि अवलोकन राज्यहरू आवाजले बिग्रेको छ भने, एजेन्टलाई आंशिक अवलोकन योग्यता भनिन्छ, र औपचारिक रूपमा समस्या आंशिक रूपमा अवलोकन योग्य मार्कोभ निर्णय प्रक्रियाको रूपमा बनाउनुपर्दछ। दुबै केसहरूमा, एजेन्टमा उपलब्ध कार्यहरूको सेट प्रतिबन्धित गर्न सकिन्छ। उदाहरण को लागी, एक खाता शेष राज्य को सकारात्मक हुन सीमित हुन सक्छ; यदि राज्यको हालको मान is हो र राज्य स transition्क्रमणले 3 ले मूल्य घटाउने प्रयास गर्यो भने, संक्रमणलाई अनुमति दिइने छैन।
जब एजेन्टको प्रदर्शनलाई एक एजेन्टसँग तुलना गरिन्छ जुन अधिकतम कार्य गर्दछ, प्रदर्शनमा भिन्नताले पश्चातापको धारणालाई जन्म दिन्छ। इष्टतम रूपमा कार्य गर्नको लागि, एजेन्टले यसको कार्यको दीर्घकालीन परिणामहरू बारे तर्क गर्नुपर्दछ (उदाहरणका लागि, भविष्यको आम्दानी अधिकतम पार्नुहोस्), यद्यपि यससँग सम्बन्धित तत्काल पुरस्कार नकरात्मक हुन सक्छ।
तसर्थ, सुदृढीकरण शिक्षा विशेष गरी समस्याहरूको लागि राम्रोसँग उपयुक्त छ जुन अल्प-अवधि इनाम ट्रेड-अफ विरूद्ध लामो अवधिमा सामेल छ। यो रोबोट नियन्त्रण, एलिभेटर तालिका, दूरसंचार, ब्याकग्यामोन, चेकर्स र गो (अल्फागो) सहित विभिन्न समस्याहरूमा सफलतापूर्वक लागू गरिएको छ।
दुई तत्वहरूले सुदृढीकरण सीखनालाई शक्तिशाली बनाउँदछन्: प्रदर्शन अनुकूलन गर्न नमूनाहरूको प्रयोग र ठूलो वातावरणसँग डिल गर्न प्रकार्य समीकरणको प्रयोग। यी दुई प्रमुख कम्पनीहरूको लागि धन्यवाद, सुदृढीकरण शिक्षण निम्न अवस्थामा ठूलो वातावरणमा प्रयोग गर्न सकिन्छ:
- वातावरण को एक मोडल ज्ञात छ, तर एक विश्लेषणात्मक समाधान उपलब्ध छैन।
- वातावरणको केवल एक सिमुलेसन मोडेल दिइन्छ (सिमुलेशन-आधारित अनुकूलनको विषय)।
- वातावरणको बारेमा जानकारी स collect्कलन गर्ने एकमात्र तरीका योसँग कुराकानी गर्नु हो।
यी समस्याहरू मध्ये पहिलो दुईलाई योजना बनाउने समस्याहरूको रूपमा लिन सकिन्छ (जुन मोडलको केही फारम उपलब्ध छ), जबकि अन्तिमलाई एक वास्तविक शिक्षा समस्या मान्न सकिन्छ। यद्यपि, सुदृढीकरण शिक्षा दुबै योजना समस्याहरूलाई मेशिन शिक्षा समस्यामा रूपान्तरण गर्दछ।
अन्वेषण बनाम शोषण ट्रेड अफको पूर्ण रूपले बहु-सशस्त्र डाकु समस्या र बुर्नेटास र काठेकिस (१ 1997 XNUMX)) मा सीमित राज्य अन्तरिक्ष MDPs को माध्यमबाट अध्ययन गरिएको छ।
सुदृढीकरण शिक्षालाई चलाख अन्वेषण संयन्त्रको आवश्यकता छ; अनुमानित सम्भावितता वितरणको सन्दर्भ बिना अनियमित रूपमा कार्यहरू चयन गर्दा, खराब प्रदर्शन देखाउँदछ। (सानो) सीमित मार्कोभ निर्णय प्रक्रियाको मामला तुलनात्मक रूपमा राम्रोसँग बुझ्न सकिन्छ। जहाँसम्म, राज्यहरूको संख्यासँग राम्रोसँग मापन हुने एल्गोरिदमको अभावका कारण (वा असीम राज्य रिक्त स्थानको समस्याको मापन), सरल अन्वेषण विधिहरू सबैभन्दा व्यावहारिक हुन्छन्।
यद्यपि अन्वेषणको मुद्दालाई बेवास्ता गरिएको छ र राज्य अवलोकन योग्य पनि भए पनि समस्याले विगतको अनुभव प्रयोग गर्न बाँकी छ जसले पत्ता लगाउँदछ कि कुन कार्यहरूले उच्च संचयी इनाम निम्त्याउँछ।
प्रमाणीकरण पाठ्यक्रमको साथमा आफूलाई विस्तृत रूपमा परिचित गर्न तपाईंले तलको तालिका विस्तार र विश्लेषण गर्न सक्नुहुन्छ।
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum ले भिडियो फारममा खुला-पहुँच डिड्याक्टिक सामग्रीहरू सन्दर्भ गर्दछ। सिकाइ प्रक्रियालाई चरण-दर-चरण संरचना (कार्यक्रमहरू -> पाठहरू -> विषयहरू) सान्दर्भिक पाठ्यक्रम भागहरू समावेश गरी विभाजन गरिएको छ। डोमेन विशेषज्ञहरूसँग असीमित परामर्श पनि प्रदान गरिन्छ।
प्रमाणीकरण प्रक्रियामा विवरणहरूको लागि जाँच गर्नुहोस् कसरी यो काम गर्दछ.
पाठ्यक्रम संदर्भ संसाधन
गहन सुदृढीकरण लर्निंग प्रकाशन मार्फत मानव स्तरको नियन्त्रण
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
युसी बर्कलेमा गहिरो सुदृढीकरण शिक्षामा खुला पहुँच कोर्स
http://rail.eecs.berkeley.edu/deeprlcourse/
RL ले Manifold.ai बाट K-आर्म्बेड बैंडिट समस्यामा लागू गर्यो
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL Advanced Reinforcement Learning Program को लागि पूर्ण अफलाइन स्व-सिकाइ तयारी सामग्रीहरू PDF फाइलमा डाउनलोड गर्नुहोस्।
EITC/AI/ARL तयारी सामग्री - मानक संस्करण
EITC/AI/ARL तयारी सामग्री - समीक्षा प्रश्नहरूको साथ विस्तारित संस्करण