Машин сургалтын салбарт өгөгдөл бэлтгэх нь загварыг амжилттай сургахад чухал үүрэг гүйцэтгэдэг. Pandas номын санг ашиглахдаа машин сургалтын загварыг сургах өгөгдлийг бэлтгэхэд хэд хэдэн үе шат байдаг. Эдгээр алхмуудад өгөгдөл ачаалах, өгөгдөл цэвэрлэх, өгөгдөл хувиргах, өгөгдөл хуваах зэрэг орно.
Өгөгдлийг бэлтгэх эхний алхам бол Pandas DataFrame-д ачаалах явдал юм. Үүнийг файлаас өгөгдлийг унших эсвэл мэдээллийн сангаас асуух замаар хийж болно. Pandas нь энэ үйл явцыг хөнгөвчлөхийн тулд `read_csv()`, `read_excel()`, `read_sql()` гэх мэт төрөл бүрийн функцуудыг хангадаг. Өгөгдөл ачаалагдсаны дараа тэдгээрийг хүснэгт хэлбэрээр хадгалдаг бөгөөд үүнийг удирдах, дүн шинжилгээ хийхэд хялбар болгодог.
Дараагийн алхам бол дутуу утгыг зохицуулах, давхардлыг арилгах, хэт давсан үзүүлэлттэй ажиллах зэрэг өгөгдлийг цэвэрлэх явдал юм. Алга болсон утгыг дундаж тооцоолол эсвэл урагш/буцах зэрэг аргуудыг ашиглан нөхөж болно. `duplicated()` болон `drop_duplicates()` функцуудыг ашиглан давхардлыг тодорхойлж устгаж болно. З-оноо эсвэл дөрөвний хоорондын муж (IQR) зэрэг статистикийн аргуудыг ашиглан хэт давсан үзүүлэлтүүдийг илрүүлж болох бөгөөд тэдгээрийг арилгах эсвэл илүү тохиромжтой утга болгон хувиргах замаар зохицуулж болно.
Өгөгдлийг цэвэрлэсний дараа дараагийн алхам бол өгөгдлийг хувиргах явдал юм. Үүнд категорийн хувьсагчдыг тоон дүрслэл болгон хувиргах, тоон хувьсагчдыг масштаблах, шинэ боломжуудыг бий болгох зэрэг орно. Категорийн хувьсагчдыг нэг халуун кодчилол эсвэл шошгоны кодчилол гэх мэт аргуудыг ашиглан хувиргаж болно. Тоон хувьсагчдыг стандартчилал эсвэл нормчилол гэх мэт арга техникийг ашиглан хэмжиж болно. Одоо байгаа функцуудыг нэгтгэх эсвэл математикийн үйлдлүүдийг ашиглах замаар шинэ боломжуудыг үүсгэж болно.
Эцэст нь, өгөгдлийг сургалт, туршилтын багц болгон хуваах шаардлагатай. Энэ нь үл үзэгдэх өгөгдөл дээр бэлтгэгдсэн загварын гүйцэтгэлийг үнэлэхийн тулд хийгддэг. Pandas дахь `train_test_split()` функцийг ашиглан өгөгдлийг санамсаргүй байдлаар заасан харьцаанд үндэслэн сургалт, туршилтын багц болгон хуваах боломжтой. Зорилтот хувьсагчийн тархалтыг хадгалахын тулд өгөгдлийг хуваах нь чухал юм.
Дүгнэж хэлэхэд, Pandas номын санг ашиглан машин сургалтын загварыг сургах өгөгдөл бэлтгэхэд шаардлагатай алхмууд нь өгөгдөл ачаалах, өгөгдлийг цэвэрлэх, өгөгдлийг хувиргах, өгөгдөл хуваах явдал юм. Эдгээр алхмууд нь өгөгдлийг загварт сургахад тохиромжтой форматтай байх, найдвартай үр дүнд хүрэхэд зайлшгүй шаардлагатай.
Сүүлийн үеийн бусад асуулт, хариулт Машин сургалтанд ахиц дэвшил гаргах:
- Машин сургалтын явцад том өгөгдлийн багцтай ажиллахад ямар хязгаарлалт байдаг вэ?
- Машины сургалт нь харилцан ярианы тусламж үзүүлж чадах уу?
- TensorFlow тоглоомын талбай гэж юу вэ?
- Хүсэл эрмэлзэлтэй горим нь TensorFlow-ийн тархсан тооцооллын функцийг саатуулдаг уу?
- Google үүлэн шийдлүүдийг том өгөгдөлтэй ML загварыг илүү үр дүнтэй сургах үүднээс тооцоололыг хадгалах сангаас салгахад ашиглаж болох уу?
- Google Cloud Machine Learning Engine (CMLE) нь загварын сургалт дууссаны дараа нөөцийг автоматаар олж авах, тохируулах, мөн нөөцийг зогсоохыг санал болгодог уу?
- Машин сургалтын загваруудыг дур зоргоороо том өгөгдлийн багц дээр ямар ч саадгүй сургах боломжтой юу?
- CMLE-г ашиглах үед хувилбар үүсгэхэд экспортлогдсон загварын эх сурвалжийг зааж өгөх шаардлагатай юу?
- CMLE нь Google Cloud хадгалах сангийн датаг уншиж, дүгнэлт гаргахдаа тусгайлан бэлтгэгдсэн загварыг ашиглаж чадах уу?
- Tensorflow-ийг гүн мэдрэлийн сүлжээг (DNN) сургах, дүгнэлт хийхэд ашиглаж болох уу?
Бусад асуулт, хариултыг "Machine Learning-д ахиц дэвшил" хэсгээс үзнэ үү