Машин сургалтын үе шатууд нь машин сургалтын загваруудыг хөгжүүлэх, ашиглах, хадгалахад чиглэсэн бүтэцтэй хандлагыг илэрхийлдэг. Эдгээр үе шатууд нь машин сургалтын үйл явц нь системтэй, давтагдах, өргөжүүлэх боломжтой гэдгийг баталгаажуулдаг. Дараах хэсгүүдэд үе шат бүрийг иж бүрэн тоймлон гаргаж, гол үйл ажиллагаа, анхаарах зүйлсийг дэлгэрэнгүй харуулав.
1. Асуудлыг тодорхойлох, мэдээлэл цуглуулах
Асуудлыг тодорхойлох
Эхний үе шат нь машин сургалтын загвар нь шийдвэрлэхийг зорьж буй асуудлыг тодорхой тодорхойлох явдал юм. Үүнд бизнесийн зорилгыг ойлгох, тэдгээрийг машин сургалтын асуудал болгон хөрвүүлэх зэрэг орно. Жишээлбэл, бизнесийн зорилго нь үйлчлүүлэгчийн алдагдлыг бууруулах явдал байж болно. Харгалзах машин сургалтын асуудал нь түүхэн өгөгдөл дээр үндэслэн аль үйлчлүүлэгчид эргэлзэх магадлалтайг урьдчилан таамаглах явдал байж болно.Өгөгдөл цуглуулах
Асуудлыг тодорхойлсны дараа дараагийн алхам нь загварыг сургахад шаардлагатай өгөгдлийг цуглуулах явдал юм. Мэдээлэл цуглуулахдаа мэдээллийн сан, API, вэб хусах, гуравдагч талын мэдээллийн багц гэх мэт янз бүрийн эх сурвалжийг хамруулж болно. Цуглуулсан мэдээллийн чанар, тоо хэмжээ нь машин сургалтын загварын гүйцэтгэлд нөлөөлдөг чухал хүчин зүйлүүд юм.2. Мэдээлэл бэлтгэх
Өгөгдлийн цэвэрлэгээ
Түүхий өгөгдөл нь ихэвчлэн чимээ шуугиантай байдаг бөгөөд дутуу эсвэл нийцэхгүй утгыг агуулдаг. Өгөгдлийн цэвэрлэгээ нь дутуу утгыг зохицуулах, давхардлыг арилгах, зөрчилдөөнийг засах явдал юм. Энэ үе шатанд тооцоолол, интерполяци, хэтийн утгыг илрүүлэх зэрэг аргуудыг ихэвчлэн ашигладаг.Өгөгдлийн хувиргалт
Өгөгдлийн хувиргалт нь хэвийн болгох, масштаблах, категорийн хувьсагчдыг кодлох зэрэг үйлдлүүдийг агуулдаг. Эдгээр өөрчлөлтүүд нь өгөгдөл нь машин сургалтын алгоритмд тохиромжтой форматтай байхыг баталгаажуулдаг. Жишээлбэл, тоон шинж чанарыг хэвийн болгох нь градиент дээр суурилсан алгоритмуудын нэгдэх хурдыг сайжруулахад тусална.Өгөгдөл хуваах
Өгөгдлийн багц нь ихэвчлэн сургалт, баталгаажуулалт, туршилтын багцад хуваагддаг. Сургалтын багц нь загварыг сургахад, баталгаажуулалтын багц нь гиперпараметрийг тааруулахад, туршилтын багц нь загварын гүйцэтгэлийг үнэлэхэд ашиглагддаг. Нийтлэг хуваах харьцаа нь сургалтанд 70%, баталгаажуулалтад 15%, туршилтанд 15% байна.3. Онцлог инженерчлэл
Онцлог сонголт
Онцлогын сонголт нь загварыг урьдчилан таамаглах хүчин чадалд хувь нэмэр оруулах хамгийн хамааралтай шинж чанаруудыг тодорхойлох явдал юм. Модонд суурилсан загваруудын хамаарлын дүн шинжилгээ, харилцан мэдээлэл, онцлогийн ач холбогдлын оноо зэрэг аргуудыг онцлогуудыг сонгоход ашигладаг.Онцлог олборлолт
Онцлогуудыг задлах нь одоо байгаа функцүүдээс шинэ боломжуудыг бий болгох явдал юм. Үүнд өгөгдөл нэгтгэх, олон гишүүнт шинж чанаруудыг үүсгэх эсвэл утга учиртай шинж чанаруудыг бий болгохын тулд домэйны тусгай мэдлэгийг ашиглах зэрэг орно. Жишээлбэл, цаг хугацааны цуврал өгөгдлийн багцаас хөдөлж буй дундаж эсвэл хоцрогдсон утгууд зэрэг функцуудыг гаргаж авах боломжтой.4. Загвар сонгох ба сургалт
Загварын сонголт
Зөв алгоритмыг сонгох нь машин сургалтын төслийг амжилттай хэрэгжүүлэхэд чухал ач холбогдолтой. Алгоритмыг сонгох нь асуудлын мөн чанар, өгөгдлийн багцын хэмжээ, төрөл, тооцооллын нөөцөөс хамаарна. Нийтлэг алгоритмууд нь шугаман регресс, шийдвэрийн мод, дэмжлэгийн вектор машин, мэдрэлийн сүлжээг агуулдаг.Загварын сургалт
Загварын сургалт нь үндсэн хэв маягийг сурахын тулд сонгосон алгоритмд сургалтын өгөгдлийг оруулах явдал юм. Энэ үе шатанд урьдчилан таамагласан болон бодит утгуудын хоорондох зөрүүг хэмждэг алдагдлыг багасгахын тулд загварын параметрүүдийг тохируулдаг. Оновчлолын хувьд градиент уналт гэх мэт аргуудыг ихэвчлэн ашигладаг.5. Hyperparameter Tuning
Торон хайлт
Торон хайлт нь баталгаажуулалтын багц дээр хамгийн сайн гүйцэтгэлийг өгөх хослолыг олохын тулд урьдчилан тодорхойлсон гиперпараметрүүдийн багцыг сайтар хайх явдал юм. Энэ арга нь тооцооллын хувьд үнэтэй байж болох ч жижиг, дунд хэмжээний өгөгдлийн багцад үр дүнтэй байдаг.Санамсаргүй хайлт
Санамсаргүй хайлт нь урьдчилан тодорхойлсон тархалтаас гиперпараметрүүдийг санамсаргүй байдлаар түүвэрлэх явдал юм. Энэ арга нь илүү өргөн хүрээний гиперпараметрүүдийг богино хугацаанд судалдаг тул сүлжээ хайлтаас илүү үр дүнтэй байдаг.Bayesian оновчлол
Bayesian оновчлол нь гиперпараметрийг сонгохдоо магадлалын загваруудыг ашигладаг. Энэ нь зорилгын функцийг ойртуулахын тулд орлуулагч загварыг бүтээж, дараа нь аль гиперпараметрийг үнэлэх шийдвэр гаргахдаа энэ загварыг ашигладаг. Энэ арга нь сүлжээ болон санамсаргүй хайлтаас илүү үр дүнтэй, ялангуяа нарийн төвөгтэй загварт зориулагдсан.6. Загварын үнэлгээ
Гүйцэтгэлийн хэмжүүр
Загварын гүйцэтгэлийг үнэлэх нь түүний нарийвчлал, нарийвчлал, санах ой, F1 оноо болон бусад холбогдох хэмжүүрүүдийг хэмжихийн тулд янз бүрийн хэмжигдэхүүнийг ашиглах явдал юм. Хэмжилтийн сонголт нь тодорхой асуудлаас хамаарна. Жишээлбэл, ангиллын бодлогод нарийвчлал ба F1 оноог ихэвчлэн ашигладаг бол регрессийн бодлогод дундаж квадрат алдаа (MSE) болон R квадратыг илүү тохиромжтой.Загалмайн баталгаажуулалт
Хөндлөн баталгаажуулалт нь өгөгдлийн багцыг олон нугалахад хуваах, өгөгдлийн өөр өөр дэд бүлэгт загварыг сургах явдал юм. Энэхүү техник нь галт тэрэгний туршилтын нэг хуваагдалтай холбоотой зөрүүг багасгах замаар загварын гүйцэтгэлийн илүү найдвартай үнэлгээг өгдөг. Нийтлэг аргууд нь k-fold cross-validation болон stratified cross-validation орно.7. Загвар байршуулалт
Загварыг цуврал болгох
Загварын цуваачлал нь сургагдсан загварыг файлд хадгалах бөгөөд дараа нь ачаалж, таамаглахад ашиглах боломжтой. Нийтлэг цуваа хэлбэрт Python загварт зориулсан даршилсан ногоо, өөр өөр платформ дээр байрлуулах шаардлагатай загваруудад зориулсан ONNX орно.Загварт үйлчилж байна
Загварт үйлчлэх нь түүнийг оролтын өгөгдөл хүлээн авах, таамаглалыг буцаах боломжтой үйлдвэрлэлийн орчинд ашиглах явдал юм. Үүнийг REST API, микро үйлчилгээ эсвэл Google Cloud AI Platform, AWS SageMaker, Azure Machine Learning зэрэг үүлэнд суурилсан платформ ашиглан хийж болно.8. Хяналт ба засвар үйлчилгээ
Гүйцэтгэлийн хяналт
Загварыг байрлуулсны дараа түүний гүйцэтгэлийг бодит цаг хугацаанд нь хянах нь чухал юм. Үүнд хоцролт, дамжуулах чадвар, алдааны түвшин зэрэг хэмжүүрүүдийг хянах шаардлагатай. Энэ зорилгоор Prometheus, Grafana, үүлэнд суурилсан шийдэл зэрэг хяналтын хэрэгслүүдийг ашиглаж болно.Загвар дахин сургах
Цаг хугацаа өнгөрөхийн хэрээр загварын гүйцэтгэл нь үндсэн өгөгдөл түгээлтийн өөрчлөлтөөс болж буурч магадгүй бөгөөд энэ нь концепцийн шилжилт гэж нэрлэгддэг үзэгдэл юм. Загварыг шинэ өгөгдлөөр тогтмол давтан сургах нь түүний нарийвчлал, хамааралтай байдлыг хадгалахад тусалдаг. Энэ үйл явцыг оновчтой болгохын тулд автоматжуулсан дамжуулах хоолойг тохируулж болно.A/B шинжилгээ
A/B тест нь загварын олон хувилбарыг ашиглах, тэдгээрийн гүйцэтгэлийг харьцуулан хамгийн сайн хувилбарыг тодорхойлох явдал юм. Энэ техник нь загварын шинэчлэлт, сайжруулалтын талаар өгөгдөлд тулгуурласан шийдвэр гаргахад тусалдаг.9. Баримт бичиг, тайлагнах
Загварын баримт бичиг
Загварын архитектур, гиперпараметр, сургалтын үйл явц, гүйцэтгэлийн хэмжигдэхүүн зэрэг иж бүрэн баримт бичиг нь хуулбарлах, хамтран ажиллахад чухал ач холбогдолтой. Jupyter Notebooks, Sphinx, MkDocs зэрэг хэрэгслүүдийг нарийвчилсан баримт бичиг үүсгэхэд ашиглаж болно.тайлагнах
Загварын гүйцэтгэл, шинэчлэлт, тулгарсан аливаа асуудлын талаар тогтмол тайланг оролцогч талуудад хүргэх ёстой. Энэ нь ил тод байдлыг хангаж, мэдээлэлтэй шийдвэр гаргахад тустай.Жишээ нь: Хэрэглэгчийн алдагдлыг урьдчилан таамаглах
Машины сургалтын үе шатуудыг харуулахын тулд харилцаа холбооны компанид хэрэглэгчийн алдагдлыг урьдчилан таамаглах жишээг авч үзье.
1. Асуудлыг тодорхойлох: Бизнесийн зорилго нь хэрэглэгчийн алдагдлыг бууруулах явдал юм. Машины сургалтын асуудал нь ашиглалтын хэв маяг, хүн ам зүй, үйлчилгээний түүх дээр үндэслэн ямар үйлчлүүлэгчид эргэлзэх магадлалтайг урьдчилан таамаглахад оршино.
2. Өгөгдөл цуглуулах: Мэдээллийг хэрэглэгчийн мэдээллийн сан, ашиглалтын бүртгэл, хэрэглэгчийн үйлчилгээний бүртгэл зэрэг янз бүрийн эх сурвалжаас цуглуулдаг.
3. Мэдээлэл бэлтгэх: Өгөгдөл нь дутуу утгууд болон үл нийцэх байдлыг зохицуулахын тулд цэвэрлэгддэг. Сарын хэрэглээ, үйлчлүүлэгчийн ажиллах хугацаа, үйлчилгээний гомдол зэрэг онцлогуудыг хэвийн болгож, кодчилдог.
4. Онцгой инженер: Холбогдох шинж чанаруудыг гацахтай хамаарал дээр үндэслэн сонгоно. Дуудлагын дундаж үргэлжлэх хугацаа, үйлчилгээний гомдлын давтамж зэрэг шинэ боломжуудыг гаргаж авсан.
5. Загвар сонгох, сургах: Шийдвэрийн модны ангилагчийг тайлбарлах боломжтой байдлын үүднээс сонгосон. Загвар нь гацалттай холбоотой хэв маягийг сурахын тулд сургалтын өгөгдлийн багц дээр сургагдсан.
6. Гиперпараметрийг тааруулах: Шийдвэрлэх модны оновчтой гиперпараметрийг олохын тулд сүлжээ хайлтыг ашигладаг, тухайлбал нэг навч тутамд хамгийн их гүн, хамгийн бага дээж.
7. Загварын үнэлгээ: Загварын гүйцэтгэлийг нарийвчлал, нарийвчлал, эргэн санах, F1 оноо ашиглан үнэлдэг. Бат бөх байдлыг хангахын тулд хөндлөн баталгаажуулалтыг хийдэг.
8. Загвар байршуулалт: Сургалтанд хамрагдсан загвар нь оролтын өгөгдлийг хүлээн авч, таамаглалыг буцаах боломжтой үүлэн дээр суурилсан платформд нэвтрүүлж, суулгасан.
9. Хяналт, засвар үйлчилгээ: Загварын гүйцэтгэлийг бодит цаг хугацаанд хянадаг. Шинэ өгөгдлийг нэгтгэх, үнэн зөв байдлыг хадгалахын тулд тогтмол давтан сургах төлөвлөгөөтэй байна. Загварын янз бүрийн хувилбаруудыг харьцуулахын тулд A/B тестийг хийдэг.
10. Баримт бичиг, тайлагнах: Архитектур, сургалтын үйл явц, гүйцэтгэлийн хэмжүүр зэрэг загварын нарийвчилсан баримт бичгийг бий болгосон. Тогтмол тайланг гаргаж, сонирхогч талуудтай хуваалцдаг.
Эдгээр үе шатуудад тодорхойлсон бүтэцтэй арга барил нь машин сургалтын загварыг системтэйгээр боловсруулж, үр ашигтай байрлуулж, үр дүнтэй байлгаж, эцсийн дүндээ бизнесийн илүү сайн үр дүнд хүргэдэг.
Сүүлийн үеийн бусад асуулт, хариулт EITC/AI/GCML Google Cloud Machine Learning:
- Та шугаман регресс, шийдвэрийн мод гэх мэт олон төрлийн алгоритмуудыг дурдсан. Эдгээр нь бүгд мэдрэлийн сүлжээ мөн үү?
- Загварын гүйцэтгэлийн үнэлгээний хэмжүүрүүд юу вэ?
- Шугаман регресс гэж юу вэ?
- Төрөл бүрийн ML загваруудыг нэгтгэж, мастер AI бүтээх боломжтой юу?
- Машины сургалтанд ашигладаг хамгийн түгээмэл алгоритмуудын зарим нь юу вэ?
- Загварын хувилбарыг хэрхэн бүтээх вэ?
- ML-ийн 7 алхамыг жишээ контекст хэрхэн хэрэгжүүлэх вэ?
- Барилга барих зөвшөөрлийн өгөгдөлд машин сургалтыг хэрхэн ашиглах вэ?
- AutoML Хүснэгтүүд яагаад зогссон ба тэдгээрийг юу амжилттай болгосон бэ?
- Тоглогчдын зурсан doodle-ийг хиймэл оюун ухааны хүрээнд тайлбарлах нь юу вэ?
EITC/AI/GCML Google Cloud Machine Learning-ээс бусад асуулт, хариултуудыг харна уу
Илүү олон асуулт, хариулт:
- Талбар: Хиймэл оюун
- хөтөлбөр: EITC/AI/GCML Google Cloud Machine Learning (гэрчилгээжүүлэх хөтөлбөрт очно уу)
- Хичээл: Оршил (холбогдох хичээл рүүгээ яв)
- сэдэв: Машины сургалт гэж юу вэ (холбогдох сэдэв рүү оч)