Машин сургалтын хүрээнд, ялангуяа машин сургалтын төслийн эхний алхмуудыг хэлэлцэх үед хүн оролцож болох олон төрлийн үйл ажиллагааг ойлгох нь чухал юм. Эдгээр үйл ажиллагаа нь машин сургалтын загваруудыг хөгжүүлэх, сургах, нэвтрүүлэх үндсэн суурь болдог. , мөн тус бүр нь түүхий өгөгдлийг хэрэгжүүлэх боломжтой ойлголт болгон хувиргах үйл явцад өвөрмөц зорилготой. Доорх нь эдгээр үйл ажиллагааны иж бүрэн жагсаалтыг машин сургалтын шугаман доторх үүргийг тодруулах тайлбарын хамт оруулав.
1. Өгөгдөл цуглуулах: Энэ бол аливаа машин сургалтын төслийн үндсэн алхам юм. Мэдээлэл цуглуулах нь мэдээллийн сан, вэб хусах, мэдрэгчийн өгөгдөл эсвэл хэрэглэгчийн үүсгэсэн контент зэрэг янз бүрийн эх сурвалжаас түүхий мэдээлэл цуглуулах явдал юм. Цуглуулсан мэдээллийн чанар, тоо хэмжээ нь машин сургалтын загварын гүйцэтгэлд шууд нөлөөлдөг. Жишээлбэл, хэрэв хэн нэгэн орон сууцны үнийг урьдчилан таамаглах загвар боловсруулж байгаа бол үл хөдлөх хөрөнгийн жагсаалт, борлуулалтын түүхэн бүртгэл, эдийн засгийн үзүүлэлтээс мэдээлэл цуглуулж болно.
2. Мэдээлэл бэлтгэх: Мэдээлэл цуглуулсны дараа шинжилгээнд бэлтгэх ёстой. Энэ алхам нь дуу чимээ, алдааг арилгахын тулд өгөгдлийг цэвэрлэх, дутуу утгыг боловсруулах, өгөгдлийг тохиромжтой формат руу хөрвүүлэх явдал юм. Мэдээлэл бэлтгэхэд мөн загварын гүйцэтгэлийг сайжруулахын тулд одоо байгаа өгөгдлөөс шинэ боломжуудыг бий болгодог онцлог инженерчлэл орно. Жишээлбэл, хэрэглэгчийн гүйлгээний өгөгдлийн багцад нэг харилцагчийн гүйлгээний дундаж утгыг илэрхийлэх функцийг үүсгэж болно.
3. Өгөгдлийн судалгаа: Мөн хайгуулын өгөгдлийн шинжилгээ (EDA) гэж нэрлэгддэг энэ алхам нь хэв маяг, харилцаа холбоо, ойлголтыг илрүүлэхийн тулд өгөгдөлд дүн шинжилгээ хийх явдал юм. Өгөгдлийн тархалтыг ойлгох, гажуудлыг илрүүлэх, харилцан хамаарлыг тодорхойлохын тулд өгөгдлийн дүрслэх хэрэгсэл, статистикийн аргуудыг ашигладаг. Энэ үйл ажиллагаа нь өгөгдлийг урьдчилан боловсруулах, онцлогийг сонгох талаар мэдээлэлтэй шийдвэр гаргахад тусалдаг. Жишээлбэл, гистограмм эсвэл тараах график зурах нь өгөгдлийн тархалт болон боломжит хэтийн утгыг илрүүлж чадна.
4. Загварын сонголт: Энэ алхамд тулгарч буй асуудал болон өгөгдлийн шинж чанарт үндэслэн тохирох машин сургалтын алгоритмуудыг сонгоно. Өөр өөр алгоритмууд өөр өөр давуу болон сул талуудтай байдаг тул загварыг сонгох нь маш чухал юм. Ангиллын асуудлуудын хувьд шийдвэрийн мод, дэмжлэгийн вектор машин эсвэл мэдрэлийн сүлжээг авч үзэж болно. Регрессийн даалгаврын хувьд шугаман регресс эсвэл санамсаргүй ой тохиромжтой байж болно. Загвар сонгох үйл явц нь өгөгдөлд хамгийн сайн тохирохыг олохын тулд олон загварыг харьцуулах явдал юм.
5. Загварын сургалт: Загвар сонгогдсоны дараа түүнийг бэлтгэсэн өгөгдлийг ашиглан сургах ёстой. Загварын сургалт нь урьдчилан таамагласан болон бодит үр дүнгийн хоорондох алдааг багасгахын тулд загварын параметрүүдийг тохируулах явдал юм. Үүнд гол төлөв градиент уналт гэх мэт оновчлолын техникээр дамжуулан хүрдэг. Сургалтын явцад загвар нь өгөгдөл доторх хэв маяг, харилцааг сурдаг. Жишээлбэл, мэдрэлийн сүлжээг сургах нь алдагдлыг багасгахын тулд сүлжээний жин ба хазайлтыг тохируулах явдал юм.
6. Загварын үнэлгээ: Сургалтын дараа загвар нь үл үзэгдэх өгөгдөлд сайн ерөнхийлсөн эсэхийг шалгахын тулд гүйцэтгэлийг үнэлэх ёстой. Үүнийг сургалтын явцад ашиглаагүй тусдаа баталгаажуулалт эсвэл туршилтын өгөгдлийн багц ашиглан хийдэг. Үнэлгээний нийтлэг хэмжигдэхүүнд нарийвчлал, нарийвчлал, санах ой, ангиллын даалгаврын F1 оноо, регрессийн даалгаврын хувьд дундаж квадрат алдаа эсвэл R квадрат зэрэг орно. Загварыг үнэлэх нь загвар нь сургалтын өгөгдөл дээр хэт сайн ажиллаж байгаа боловч шинэ өгөгдөл дээр муу, эсвэл өгөгдөл дэх үндсэн чиг хандлагыг тусгаж чадахгүй байх зэрэг асуудлыг тодорхойлоход тусалдаг.
7. Загвар байршуулалт: Эцсийн алхам нь бэлтгэгдсэн, үнэлэгдсэн загварыг шинэ өгөгдөл дээр таамаглал гаргах боломжтой үйлдвэрлэлийн орчинд ашиглах явдал юм. Загварыг вэб програмд оруулах, REST API болгон ашиглах, мобайл аппликейшнд оруулах гэх мэт янз бүрийн аргаар байршуулах боломжтой. Бодит өгөгдөл өөрчлөгдөж, загвар зөрөхөд хүргэдэг тул цаг хугацааны явцад загвар үнэн зөв хэвээр байхын тулд тасралтгүй хяналт тавих нь чухал юм.
Эдгээр үндсэн үйл ажиллагаанаас гадна машин сургалтын хэд хэдэн тусгайлсан ажлуудыг дурдах нь зүйтэй.
- ангилал: Энэ үйл ажиллагаа нь сурсан загвар дээр тулгуурлан өгөгдөл оруулахад шошго оноох явдал юм. Ангиллын даалгавар нь спам илрүүлэх, сэтгэл хөдлөлийн дүн шинжилгээ, зураг таних гэх мэт янз бүрийн програмуудад түгээмэл байдаг. Жишээлбэл, спам илрүүлэх систем нь илгээгчийн хаяг, имэйлийн агуулга, мета өгөгдөл зэрэг шинж чанарууд дээр үндэслэн имэйлийг спам эсвэл спам биш гэж ангилдаг.
- Регресс: Регрессийн даалгавар нь оролтын шинж чанарт тулгуурлан тасралтгүй гаралтын хувьсагчийг таамаглахад оршино. Энэ нь орон сууцны үнэ, хөрөнгийн зах зээлийн чиг хандлага, борлуулалтын таамаглал зэрэг програмуудад ихэвчлэн ашиглагддаг. Зорилго нь бие даасан хувьсагч ба тасралтгүй хамааралтай хувьсагчийн хоорондын хамаарлыг загварчлах явдал юм.
- Классив: Кластер хийх нь ижил төстэй өгөгдлийн цэгүүдийг нэгтгэхэд ашигладаг хараа хяналтгүй сургалтын арга юм. Энэ нь урьдчилан тодорхойлсон шошгогүйгээр өгөгдлийн үндсэн хэв маяг, бүтцийг илрүүлэхэд хэрэгтэй. Кластерын хэрэглээнд хэрэглэгчийн сегментчилэл, зураг шахах, гажиг илрүүлэх зэрэг орно. K-дундаж ба шаталсан кластер нь энэ даалгаврын түгээмэл алгоритмууд юм.
- Хэмжээжилтийг бууруулах: Энэ үйл ажиллагаа нь өгөгдлийн багц дахь оролтын хувьсагч эсвэл функцүүдийн тоог багасгахын зэрэгцээ түүний үндсэн шинж чанарыг хадгалахад оршино. Үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ (PCA) болон t-Distributed Stochastic Neighbor Embedding (t-SNE) зэрэг хэмжигдэхүүнийг багасгах арга техникийг загваруудыг хялбарчлах, тооцоолох хугацааг багасгах, хэмжээст байдлын хараалыг багасгахад ашигладаг.
- Гажиг илрүүлэх: Аномали илрүүлэх нь хүлээгдэж буй зан төлөвт үл нийцэх өгөгдлийн ховор буюу ер бусын хэв маягийг тодорхойлох үйл явц юм. Энэ нь залилан илрүүлэх, сүлжээний аюулгүй байдал, алдааг илрүүлэхэд онцгой ач холбогдолтой юм. Тусгаарлах ой, автомат кодлогч зэрэг техникийг ихэвчлэн гажиг илрүүлэх ажилд ашигладаг.
- Бататгах сургалт: Хяналттай болон хяналтгүй суралцахаас ялгаатай нь бататгах сургалт нь орчинтой харьцах замаар шийдвэр гаргах дарааллыг гаргах сургалтын загваруудыг агуулдаг. Загвар өмсөгч буюу төлөөлөгч нь шагнал эсвэл торгуулийн хэлбэрээр санал хүсэлт хүлээн авснаар зорилгодоо хүрч сурдаг. Бататгах сургалтын хэрэглээнд тоглоом тоглох, робот техник, бие даасан жолоодлого орно.
- Байгалийн хэлний боловсруулалт (NLP): NLP нь компьютер болон хүний хэл хоорондын харилцан үйлчлэлтэй холбоотой олон төрлийн үйл ажиллагааг хамардаг. Үүнд текстийн ангилал, мэдрэмжийн дүн шинжилгээ, хэлний орчуулга, нэрлэсэн объектыг таних зэрэг ажлууд орно. NLP загварууд нь токенизаци, stemming, BERT эсвэл GPT гэх мэт урьдчилан бэлтгэгдсэн хэлний загваруудыг ашиглах зэрэг арга техникийг ихэвчлэн ашигладаг.
Эдгээр үйл ажиллагаа нь дадлагажигч нарын машин сургалттай ажиллахдаа хийдэг олон төрлийн ажлуудыг төлөөлдөг. Үйл ажиллагаа бүр нь машин сургалтын шийдлийг үр дүнтэй зохион бүтээх, хэрэгжүүлэх, ашиглах үндсэн зарчим, арга техникийг гүнзгий ойлгохыг шаарддаг. Эдгээр үйл ажиллагааг эзэмшсэнээр хүн нарийн төвөгтэй асуудлыг шийдэж, янз бүрийн салбарт инновацийг нэвтрүүлэхэд машин сургалтын хүчийг ашиглаж чадна.
Сүүлийн үеийн бусад асуулт, хариулт EITC/AI/GCML Google Cloud Machine Learning:
- Та шугаман регресс, шийдвэрийн мод гэх мэт олон төрлийн алгоритмуудыг дурдсан. Эдгээр нь бүгд мэдрэлийн сүлжээ мөн үү?
- Загварын гүйцэтгэлийн үнэлгээний хэмжүүрүүд юу вэ?
- Шугаман регресс гэж юу вэ?
- Төрөл бүрийн ML загваруудыг нэгтгэж, мастер AI бүтээх боломжтой юу?
- Машины сургалтанд ашигладаг хамгийн түгээмэл алгоритмуудын зарим нь юу вэ?
- Загварын хувилбарыг хэрхэн бүтээх вэ?
- ML-ийн 7 алхамыг жишээ контекст хэрхэн хэрэгжүүлэх вэ?
- Барилга барих зөвшөөрлийн өгөгдөлд машин сургалтыг хэрхэн ашиглах вэ?
- AutoML Хүснэгтүүд яагаад зогссон ба тэдгээрийг юу амжилттай болгосон бэ?
- Тоглогчдын зурсан doodle-ийг хиймэл оюун ухааны хүрээнд тайлбарлах нь юу вэ?
EITC/AI/GCML Google Cloud Machine Learning-ээс бусад асуулт, хариултуудыг харна уу