EITC/AI/ARL Advanced Reinforcement Learning нь DeepMind-ийн хиймэл оюун ухааныг бататгах сургалтад чиглэсэн Европын мэдээллийн технологийн гэрчилгээжүүлэх хөтөлбөр юм.
EITC/AI/ARL Advanced Reforcement Learning сургалтын хөтөлбөр нь дараах бүтцийн хүрээнд зохион байгуулагдсан DeepMind-ийн үүднээс бататгах сургалтын арга техникүүдийн онолын тал болон практик ур чадварт анхаарлаа төвлөрүүлж, энэхүү ОҮИТБ-ын гэрчилгээнд лавлагаа болгон иж бүрэн видео дидактик агуулгыг багтаасан болно.
Арматурын сургалт (RL) нь хуримтлагдсан шагналын тухай ойлголтыг хамгийн дээд хэмжээнд байлгахын тулд ухаалаг агентууд тухайн орчинд хэрхэн арга хэмжээ авах ёстой вэ гэдэгтэй холбоотой машин сургалтын талбар юм. Арматурчлах сургалт нь хяналттай сурах, хараа хяналтгүй суралцахтай зэрэгцэн машин сургах үндсэн гурван парадигмын нэг юм.
Арматурын сургалт нь хяналттай сургалтаас шошготой оролт, гаралтын хосыг танилцуулах шаардлагагүй, дэд оптималь үйлдлийг шууд засах шаардлагагүй гэдгээрээ ялгаатай. Үүний оронд хайгуулын (зурагдаагүй газар нутаг) ашиглалт (одоогийн мэдлэгийн) хоорондын тэнцвэрийг олоход анхаарлаа төвлөрүүлдэг.
Энэ нөхцлийг бэхжүүлэх сургалтын олон алгоритм нь динамик програмчлалын аргуудыг ашигладаг тул хүрээлэн буй орчныг ихэвчлэн Марковын шийдвэр гаргах процесс (MDP) хэлбэрээр илэрхийлдэг. Сонгодог динамик програмчлалын аргууд ба бэхлэлтийг сурах алгоритмуудын хоорондох гол ялгаа нь MDP-ийн яг математик загварын талаар мэдлэг эзэмшдэггүй бөгөөд яг нарийн аргууд хэрэгжих боломжгүй болсон томоохон MDP-ууд руу чиглэсэн байдаг.
Арматурчлалыг ерөнхий байдлаас нь шалтгаалан тоглоомын онол, хяналтын онол, үйл ажиллагааны судалгаа, мэдээллийн онол, симуляцид суурилсан оновчлол, олон агентлаг систем, сүргийн тагнуул, статистик зэрэг олон чиглэлээр судалдаг. Үйл ажиллагааны судалгаа, хяналтын ном зохиолд арматурын сургалтыг ойролцоо динамик програмчлал буюу мэдрэлийн динамик програмчлал гэж нэрлэдэг. Арматурын сургалтын сонирхлын асуудлуудыг оновчтой удирдлагын онол дээр судалж үзсэн бөгөөд энэ нь ихэнхдээ оновчтой шийдлүүдийн оршин тогтнох байдал, тэдгээрийг оновчтой тооцоолох алгоритмууд, ялангуяа сурах эсвэл ойролцоо байхаас бага хамааралтай байдаг. хүрээлэн буй орчны математик загвар. Эдийн засаг, тоглоомын онолд хязгаарлагдмал оновчтой байдлын үед тэнцвэрт байдал хэрхэн үүсч болохыг тайлбарлахын тулд арматурын сургалтыг ашиглаж болно.
Үндсэн арматурыг Марковын шийдвэр гаргах процесс (MDP) хэлбэрээр загварчилсан болно. Математикт Марковын шийдвэр гаргах үйл явц (БСХ) нь салангид хугацааны стохастик хяналтын үйл явц юм. Энэ нь үр дүн нь хэсэгчлэн санамсаргүй байдлаар, зарим хэсэг нь шийдвэр гаргагчийн хяналтан дор байдаг нөхцөл байдалд шийдвэр гаргахад загварчлах математикийн хүрээг бий болгодог. БСХ нь динамик програмчлалаар шийдэгдсэн оновчлолын асуудлыг судлахад хэрэгтэй байдаг. БСХ-уудыг дор хаяж 1950-иад оны үед мэддэг байв. Марковын шийдвэр гаргах үйл явцын талаархи судалгааны үндсэн хэсэг нь Рональд Ховард 1960 онд гаргасан Динамик програмчлал ба Марковын процессууд номоос гарсан. Эдгээрийг робот, автомат удирдлага, эдийн засаг, үйлдвэрлэл зэрэг олон салбарт ашигладаг. БСХ-ийн нэр нь Оросын математикч Андрей Марковоос гаралтай бөгөөд эдгээр нь Марков гинжний өргөтгөл юм.
Алхам тутамд процесс нь зарим төлөв байдалд байгаа бөгөөд шийдвэр гаргагч нь S төлөвт байгаа аливаа үйлдлийг сонгож болно. Процесс дараагийн шатанд санамсаргүй байдлаар шинэ төлөвт 'шилжиж " шийдвэр гаргагч харгалзах шагнал Ra (S, S ').
Процесс шинэ төлөвт шилжих магадлал S '-д сонгосон үйлдэл нөлөөлнө. Тодруулбал, үүнийг улсын шилжилтийн функц Pa (S, S ') өгдөг. Тиймээс дараагийн төлөв S 'нь өнөөгийн S төлөв ба шийдвэр гаргагчийн үйлдлээс хамаарна. Гэхдээ S ба a өгөгдсөн бол энэ нь өмнөх бүх төлөв, үйлдлүүдээс нөхцөлт хараат бус болно. Өөрөөр хэлбэл, БСХ-ийн төлөв байдлын шилжилтүүд нь Марковын өмчийг хангаж өгдөг.
Марковын шийдвэр гаргах үйл явц нь Марковын гинжний өргөтгөл юм; ялгаа нь үйлдлүүд (сонголтыг зөвшөөрөх) ба шагналууд (урам зориг өгөх) нэмэхэд оршино. Үүний эсрэгээр муж бүрт зөвхөн нэг үйлдэл байгаа бол (жишээлбэл, "хүлээх") ба бүх шагналууд ижил байвал (жишээлбэл, "тэг"), Марковын шийдвэр гаргах үйл явц нь Марковын гинжин хэлхээ болж буурдаг.
Арматурын сургалтын агент нь хүрээлэн буй орчинтойгоо цаг хугацааны хувьд харилцан уялдаатай ажилладаг. T бүрт агент өнөөгийн S (t) төлөвийг хүлээн авч r (t) шагнал өгдөг. Дараа нь хүрээлэн буй орчинд илгээгдэх боломжтой үйлдлүүдийн багцаас a (t) үйлдлийг сонгоно. Хүрээлэн буй орчин S (t + 1) шинэ төлөвт шилжиж, шилжилттэй холбоотой r (t + 1) шагнал тодорхойлогддог. Арматурын сургалтын төлөөлөгчийн зорилго нь хүлээгдэж буй хуримтлагдсан урамшууллыг хамгийн дээд хэмжээнд байлгах бодлогыг сурахад оршино.
Асуудлыг БСХ гэж томъёолох нь тухайн агент хүрээлэн буй орчны өнөөгийн байдлыг шууд ажиглаж байдаг гэж үздэг. Энэ тохиолдолд асуудал нь бүрэн ажиглагдах чадвартай гэж хэлдэг. Хэрэв агент зөвхөн мужуудын дэд бүлэгт нэвтрэх эрхтэй эсвэл ажиглагдсан төлөвүүд дуу чимээнд автаж гэмтсэн бол агент нь хэсэгчлэн ажиглагдах чадвартай гэж хэлдэг бөгөөд асуудлыг албан ёсоор хэсэгчлэн ажиглагдах боломжтой Марковын шийдвэр гаргах процесс болгон томъёолох ёстой. Аль ч тохиолдолд төлөөлөгчдөд үзүүлэх багц үйл ажиллагааг хязгаарлаж болно. Жишээлбэл, дансны үлдэгдлийн төлөвийг эерэг гэж хязгаарлаж болно; хэрэв төлөвийн одоогийн утга 3 бол төлөв шилжилт нь утгыг 4-өөр бууруулахыг оролдвол шилжилтийг зөвшөөрөхгүй.
Агентын гүйцэтгэлийг хамгийн оновчтой ажилладаг агенттай харьцуулж үзэхэд гүйцэтгэлийн ялгаа нь харамсах ойлголтыг төрүүлдэг. Ойролцоо байдлаар ажиллахын тулд агент нь үйл ажиллагааныхаа урт хугацааны үр дагаврын талаар бодох ёстой (өөрөөр хэлбэл ирээдүйн орлогыг хамгийн их байлгах), гэхдээ үүнтэй холбоотой шууд шагнал нь сөрөг байж болох юм.
Тиймээс арматурын сургалт нь урт хугацааны болон богино хугацааны шагналын солилцоог багтаасан асуудлуудад маш сайн тохирдог. Энэ нь роботын удирдлага, цахилгаан шатны хуваарь, харилцаа холбоо, нар, даам, Go (AlphaGo) зэрэг янз бүрийн асуудалд амжилттай хэрэглэгдэж байна.
Хоёр элемент нь арматурын сургалтыг хүчирхэг болгодог: гүйцэтгэлийг оновчтой болгохын тулд дээжийг ашиглах, том орчныг зохицуулахын тулд функцын ойролцооллыг ашиглах. Эдгээр хоёр үндсэн бүрэлдэхүүн хэсгүүдийн ачаар арматурын сургалтыг дараахь нөхцөлд том орчинд ашиглаж болно.
- Хүрээлэн буй орчны загварыг мэддэг боловч аналитик шийдэл байдаггүй.
- Зөвхөн хүрээлэн буй орчны симуляцийн загварыг өгдөг (симуляцид суурилсан оновчлолын сэдэв).
- Байгаль орчны талаархи мэдээллийг цуглуулах цорын ганц арга бол түүнтэй харьцах явдал юм.
Эдгээр асуудлын эхний хоёрыг төлөвлөлтийн асуудал гэж үзэж болох юм (зарим хэлбэрийн загвар байгаа тул), сүүлчийн асуудлыг жинхэнэ сургалтын асуудал гэж үзэж болно. Гэсэн хэдий ч арматурын сургалт нь төлөвлөлтийн хоёр бэрхшээлийг хоёуланг нь машин сурах асуудал болгон хувиргадаг.
Хайгуулын болон ашиглалтын наймааг олон зэвсэгт дээрэмчинтэй тэмцэх асуудал, Бурнетас, Катехакис дахь хязгаарлагдмал муж улсын сансрын орон сууцны төслүүдийг нарийвчлан судалж үзсэн (1997).
Арматурыг сурахад хайгуулын ухаалаг механизм шаардагдана; тооцоолсон магадлалын хуваарилалтыг дурдалгүйгээр санамсаргүй байдлаар сонгох үйлдлүүд нь муу гүйцэтгэлийг харуулж байна. Марковын шийдвэр гаргах үйл явцын (жижиг) хэргийг харьцангуй сайн ойлгодог. Гэсэн хэдий ч мужуудын тоотой (эсвэл хязгааргүй муж орон зайтай холбоотой асуудлуудыг масштабтай) сайн масштабтай алгоритм байхгүйгээс хайгуулын энгийн аргууд хамгийн практик байдаг.
Хэдийгээр хайгуулын асуудлыг үл тоомсорлож, муж улс ажиглагдаж байсан ч гэсэн аль үйл ажиллагаа нь илүү өндөр хуримтлал үүсгэдэг болохыг олж мэдэхийн тулд өнгөрсөн туршлагаа ашиглах нь асуудал хэвээр байна.
Баталгаажуулалтын сургалтын хөтөлбөртэй дэлгэрэнгүй танилцахын тулд та доорх хүснэгтийг өргөжүүлж, дүн шинжилгээ хийж болно.
EITC/AI/ARL ахисан түвшний бататгах сургалтын гэрчилгээ олгох сургалтын хөтөлбөр нь видео хэлбэрээр нээлттэй хандалтын дидактик материалыг иш татдаг. Сургалтын үйл явц нь сургалтын хөтөлбөрийн холбогдох хэсгүүдийг хамарсан алхам алхмаар бүтцэд (хөтөлбөр -> хичээл -> сэдэв) хуваагдана. Домэйн мэргэжилтнүүдтэй хязгааргүй зөвлөгөө өгдөг.
Баталгаажуулалтын журмын талаарх дэлгэрэнгүй мэдээллийг шалгана уу Хэрхэн ажилладаг.
Сургалтын хөтөлбөрийн лавлах материал
Гүн арматурын сургалтын нийтлэлээр дамжуулан хүний түвшний хяналт
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
UC Berkeley дээр гүнзгийрүүлсэн арматурын сургалтын нээлттэй хандалттай сургалт
http://rail.eecs.berkeley.edu/deeprlcourse/
RL Manifold.ai сайтаас K-armbed bandit problem-т хандсан
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL Advanced Reinforcement Learning хөтөлбөрт зориулсан офлайн бие даан суралцах бэлтгэл материалыг бүрэн PDF файлаар татаж авна уу.
EITC/AI/ARL бэлтгэх материал – стандарт хувилбар
EITC/AI/ARL-ийн бэлтгэл материалууд – хянан шалгах асуулт бүхий өргөтгөсөн хувилбар