Гүнзгий сургалтын талбар, ялангуяа конволюцийн мэдрэлийн сүлжээ (CNN) нь сүүлийн жилүүдэд гайхалтай ахиц дэвшилд хүрч, том, нарийн төвөгтэй мэдрэлийн сүлжээний архитектурыг хөгжүүлэхэд хүргэсэн. Эдгээр сүлжээнүүд нь зураг таних, байгалийн хэлний боловсруулалт болон бусад домэйн зэрэгт бэрхшээлтэй ажлуудыг шийдвэрлэхэд зориулагдсан. Үүсгэсэн хамгийн том эвдэрсэн мэдрэлийн сүлжээний талаар ярихдаа давхаргын тоо, параметр, тооцооллын шаардлага, сүлжээг зохион бүтээсэн тусгай хэрэглээ гэх мэт янз бүрийн асуудлыг авч үзэх нь чухал юм.
Томоохон мэдрэлийн сүлжээний хамгийн тод жишээнүүдийн нэг бол VGG-16 загвар юм. Оксфордын их сургуулийн Visual Geometry группын бүтээсэн VGG-16 сүлжээ нь 16 жингийн давхаргаас бүрдэх ба үүнд 13 эргэлтийн давхарга, 3 бүрэн холбогдсон давхарга багтдаг. Энэ сүлжээ нь зураг таних даалгаврууд дахь энгийн, үр дүнтэй байдгаараа алдартай болсон. VGG-16 загвар нь ойролцоогоор 138 сая параметртэй бөгөөд энэ нь түүнийг хөгжүүлэх үеийн хамгийн том мэдрэлийн сүлжээнүүдийн нэг болсон юм.
Өөр нэг чухал эргэлтийн мэдрэлийн сүлжээ бол ResNet (Үлдэгдэл сүлжээ) архитектур юм. ResNet-ийг Microsoft Research компани 2015 онд нэвтрүүлсэн бөгөөд зарим хувилбар нь 100 гаруй давхаргатай, гүн бүтэцээрээ алдартай. ResNet-ийн гол шинэлэг зүйл бол алга болж буй градиент асуудлыг шийдвэрлэх замаар маш гүн сүлжээг сургах боломжийг олгодог үлдэгдэл блокуудыг ашиглах явдал юм. Жишээлбэл, ResNet-152 загвар нь 152 давхаргаас бүрдэх ба 60 сая орчим параметртэй бөгөөд гүн мэдрэлийн сүлжээг өргөжүүлэх чадварыг харуулдаг.
Байгалийн хэлний боловсруулалтын хүрээнд BERT (Transformers-аас хоёр чиглэлтэй кодлогчийн төлөөлөл) загвар нь мэдэгдэхүйц дэвшил болж байна. BERT нь уламжлалт CNN биш ч NLP-ийн салбарт хувьсгал хийсэн трансформаторт суурилсан загвар юм. Загварын жижиг хувилбар болох BERT-base нь 110 сая параметрийг агуулдаг бол BERT-large нь 340 сая параметртэй. BERT загваруудын том хэмжээ нь нарийн төвөгтэй хэл шинжлэлийн хэв маягийг барьж, NLP-ийн янз бүрийн даалгавруудыг хамгийн сүүлийн үеийн гүйцэтгэлд хүргэх боломжийг олгодог.
Нэмж дурдахад OpenAI-ийн боловсруулсан GPT-3 (Generative Pre-trained Transformer 3) загвар нь гүнзгий суралцах өөр нэг чухал үе шат юм. GPT-3 нь 175 тэрбум параметр бүхий хэлний загвар бөгөөд өнөөг хүртэл бүтээгдсэн хамгийн том мэдрэлийн сүлжээнүүдийн нэг юм. Энэхүү асар том хэмжээ нь GPT-3-д хүнтэй төстэй текст үүсгэх, хэлтэй холбоотой өргөн хүрээний даалгавруудыг гүйцэтгэх боломжийг олгож, том хэмжээний гүнзгий суралцах загваруудын хүчийг харуулдаг.
Судлаачид хүнд хэцүү даалгаврын гүйцэтгэлийг сайжруулах шинэ архитектур, арга зүйг судалж байгаа тул эргэлтийн мэдрэлийн сүлжээний хэмжээ, нарийн төвөгтэй байдал нэмэгдсээр байгааг анхаарах нь чухал юм. Томоохон сүлжээнүүд нь сургалт, дүгнэлт гаргахад ихээхэн хэмжээний тооцооллын нөөц шаарддаг ч компьютерийн хараа, байгалийн хэлний боловсруулалт, бататгах сургалт зэрэг төрөл бүрийн салбарт мэдэгдэхүйц ахиц дэвшлийг харуулсан.
Томоохон эргэлтийн мэдрэлийн сүлжээг хөгжүүлэх нь гүнзгий суралцах чиглэлээр чухал чиг хандлагыг илэрхийлж, нарийн төвөгтэй ажлуудад илүү хүчирхэг, боловсронгуй загваруудыг бий болгох боломжийг олгодог. VGG-16, ResNet, BERT, GPT-3 зэрэг загварууд нь янз бүрийн домэйн дэх янз бүрийн сорилтуудыг шийдвэрлэхэд мэдрэлийн сүлжээний өргөтгөх чадвар, үр нөлөөг харуулдаг.
Сүүлийн үеийн бусад асуулт, хариулт Конволюцийн мэдрэлийн сүлжээ (CNN):
- Гаралтын сувгууд юу вэ?
- Оролтын сувгийн тоо (nn.Conv1d-ийн 2-р параметр) ямар утгатай вэ?
- Сургалтын үеэр CNN-ийн гүйцэтгэлийг сайжруулах нийтлэг аргууд юу вэ?
- CNN-ийг сургахад багцын хэмжээ ямар ач холбогдолтой вэ? Энэ нь сургалтын үйл явцад хэрхэн нөлөөлдөг вэ?
- Өгөгдлийг сургалт, баталгаажуулалтын багц болгон хуваах нь яагаад чухал вэ? Баталгаажуулахад ихэвчлэн хэр их өгөгдөл хуваарилагддаг вэ?
- Бид CNN-д зориулсан сургалтын мэдээллийг хэрхэн бэлтгэх вэ? Холбогдох алхмуудыг тайлбарлана уу.
- Конволюцийн мэдрэлийн сүлжээг (CNN) сургахад оновчтой болгох, алдагдлын функцийн зорилго юу вэ?
- CNN-ийг сургах явцад оролтын өгөгдлийн хэлбэрийг янз бүрийн үе шатанд хянах нь яагаад чухал вэ?
- Зурагнаас бусад өгөгдөлд эвхэгддэг давхаргыг ашиглаж болох уу? Жишээ үзүүлнэ үү.
- CNN-ийн шугаман давхаргад тохирох хэмжээг хэрхэн тодорхойлох вэ?
Convolution neural network (CNN) дээрх бусад асуулт, хариултыг харах