Kaggle гэх мэт платформ дээр мэдээллийн шинжлэх ухааны төслүүдтэй ажиллахдаа цөмийн "салаа" гэсэн ойлголт нь одоо байгаа цөм дээр суурилсан дериватив ажлыг бий болгодог. Энэ процесс нь өгөгдлийн нууцлалын, ялангуяа эх цөм нь хувийн шинж чанартай байх үед асуудал үүсгэж болзошгүй. Эх хувь нь нууц байх үед сэрээтэй цөмийг олон нийтэд нээлттэй болгох боломжтой эсэх, энэ нь нууцлалын зөрчил мөн үү гэсэн асуултыг шийдвэрлэхийн тулд Kaggle гэх мэт платформ дээрх мэдээллийн ашиглалт, нууцлалыг зохицуулах үндсэн зарчмуудыг ойлгох нь чухал юм.
Google-ийн охин компани болох Kaggle нь өгөгдөл судлаачид болон машин сурах сонирхогчид хамтран ажиллах, өрсөлдөж, бүтээлээ хуваалцах боломжтой платформоор хангадаг. Уг платформ нь үндсэндээ өгөгдлийн шинжлэх ухааны тодорхой төсөлтэй холбоотой код, өгөгдөл, баримт бичгийг агуулсан тэмдэглэлийн дэвтэр болох цөмүүдийн хэрэглээг дэмждэг. Эдгээр цөм нь хэрэглэгчийн сонголт болон холбогдох өгөгдлийн шинж чанараас хамааран нийтийн болон хувийн байж болно.
Цөмийг сэрээсэн үед энэ нь цөмийн шинэ хувилбарыг үүсгэсэн гэсэн үг бөгөөд хэрэглэгч одоо байгаа ажил дээрээ тулгуурлах боломжийг олгоно. Энэ нь Git гэх мэт хувилбарын удирдлагын системд салбар үүсгэхтэй адил бөгөөд хэрэглэгч анхны ажлыг нь нөлөөлөхгүйгээр өөрчилж, өргөтгөх боломжтой. Гэсэн хэдий ч, сэрээтэй цөм нь хувийн шинж чанартай байх үед олон нийтэд нээлттэй байх эсэх нь хэд хэдэн хүчин зүйлээс шалтгаална.
1. Өгөгдлийн нууцлалын бодлого: Kaggle нь мэдээллийн нууцлалын талаар тодорхой удирдамж, бодлоготой. Kaggle-д өгөгдөл байршуулах үед хэрэглэгч өгөгдлийн нууцлалын түвшинг зааж өгөх ёстой. Хэрэв өгөгдөл нь хувийн гэж тэмдэглэгдсэн бол энэ нь өгөгдөл эзэмшигчийн тодорхой зөвшөөрөлгүйгээр олон нийтэд хуваалцах зорилгогүй гэсэн үг юм. Энэхүү хязгаарлалт нь нууц мэдээллийн бүрэн бүтэн байдал, нууцлалыг хадгалахад чухал ач холбогдолтой.
2. Салах зөвшөөрөл: Хувийн өгөгдөл агуулсан цөмийг салаалах үед салаа хувилбар нь эх цөмийн нууцлалын тохиргоог өвлөн авдаг. Энэ нь хэрэв анхны цөм нь хувийнх бол өгөгдлийн эзэмшигч нь статусаа өөрчлөх тодорхой зөвшөөрөл өгөөгүй тохиолдолд салаа цөм нь мөн хувийн хэвээр байх ёстой гэсэн үг юм. Энэ нь хувийн мэдээллийг зөвшөөрөлгүй хуваалцахаас урьдчилан сэргийлэх хамгаалалт юм.
3. Оюуны өмч ба мэдээллийн өмч: Цөмд агуулагдах өгөгдөл нь ихэвчлэн оюуны өмчийн эрхийн дагуу байдаг. Өгөгдөл эзэмшигч нь өгөгдлийг хэрхэн ашиглах, хуваалцах хяналтыг хадгалдаг. Хэрэглэгч цөмийг салаалах үед эдгээр эрхийг хүндэтгэх ёстой бөгөөд хэрэв сэрээтэй цөм нь хувийн мэдээлэл агуулсан бол түүнийг олон нийтэд нээлттэй болгох шийдвэр гаргах боломжгүй.
4. Платформыг хэрэгжүүлэх: Kaggle платформ архитектураараа дамжуулан эдгээр нууцлалын тохиргоог хэрэгжүүлдэг. Энэхүү систем нь хэрэглэгчдэд шаардлагатай зөвшөөрөлгүйгээр хувийн мэдээллийг агуулсан салаа цөмийн нууцлалын статусыг өөрчлөхөөс урьдчилан сэргийлэх зорилготой юм. Энэ нь мэдээллийн нууцлалын дүрэм журмыг дагаж мөрдөх, мэдээлэл эзэмшигчдийн эрх ашгийг хамгаалах зорилгоор хийгддэг.
5. Ёс суртахууны асуудлууд: Техникийн болон хууль эрх зүйн талаас гадна ёс зүйн асуудлуудыг анхаарч үзэх хэрэгтэй. Өгөгдөл судлаачид өгөгдөлтэй ёс зүйтэй ажиллах, хамтран ажиллаж буй мэдээллийнхээ нууцлал, нууцлалыг хүндэтгэх үүрэгтэй. Зөвшөөрөлгүйгээр салаа цөмийг олон нийтэд нээлттэй болгох нь мэдээллийн шинжлэх ухааны нийгэмлэгт итгэх итгэлийг алдагдуулж, эмзэг мэдээлэл ил гарсан тохиолдолд болзошгүй хохирол учруулж болзошгүй.
Эдгээр зарчмуудыг харуулахын тулд өгөгдөл судлаач Алис санхүүгийн эмзэг өгөгдөл агуулсан хувийн Kaggle цөм дээр ажилладаг таамаглалын хувилбарыг авч үзье. Алисын цөм нь хувийн шинж чанартай, учир нь өгөгдөл нь өмчийнх бөгөөд олон нийтэд задруулах ёсгүй. Өөр нэг өгөгдөл судлаач Боб Алисын ажлыг үнэ цэнэтэйд тооцож, түүн дээр тулгуурлахын тулд цөмөө ашиглахаар шийджээ. Kaggle-ийн бодлогын дагуу Бобын салаа цөм нь Алисын хувийн мэдээллийг агуулж байгаа тул хувийн байх болно.
Хэрэв Боб сэрээтэй цөмөө олон нийтэд нээлттэй болгохыг хүсвэл эхлээд өгөгдөл эзэмшигч Алисаас тодорхой зөвшөөрөл авах ёстой. Энэхүү зөвшөөрөл нь Алисыг мэдээллээ олон нийтэд хуваалцахыг зөвшөөрөх бөгөөд энэ нь өгөгдлийг нэрээ нууцлах эсвэл ямар ч нууц мэдээллийг ил гаргахгүй байх зэрэг нэмэлт зүйлийг авч үзэх шаардлагатай. Алисын зөвшөөрөлгүйгээр Боб өөрийн сэрээтэй цөмийн нууцлалын тохиргоог олон нийтэд өөрчлөх боломжгүй, учир нь энэ нь Kaggle-ийн мэдээллийн нууцлалын бодлогыг зөрчиж, мэдээллийн нууцлалын хуулийг зөрчих магадлалтай.
Энэ хувилбарт платформыг хэрэгжүүлэх механизмыг ёс зүйн үүднээс авч үзвэл эх мэдээллийн нууцлалыг хадгална. Боб сэрээтэй цөмийг зөвшөөрөлгүйгээр нийтэд нээлттэй болгож чадахгүй байгаа нь нууцлалын зөрчлөөс урьдчилан сэргийлж, Kaggle дээрх өгөгдлийн ашиглалтын бүрэн бүтэн байдлыг хангана.
Асуултын хариулт нь анхны хувийн цөмийн хувийн өгөгдлийг агуулсан салаа цөмийг өгөгдөл эзэмшигчийн тодорхой зөвшөөрөлгүйгээр нийтэд нээлттэй болгох боломжгүй юм. Энэхүү хязгаарлалт нь нууцлалын зөрчлөөс урьдчилан сэргийлэх, мэдээллийн нууцлалын бодлогыг дагаж мөрдөхийг баталгаажуулах зорилгоор хийгдсэн. Kaggle-ийн платформын архитектур нь мэдээллийн нууцлалын удирдамжийн хамт өгөгдөл эзэмшигчдийн эрх ашгийг хамгаалах, мэдээллийн шинжлэх ухааны нийгэмлэгийн итгэлийг хадгалахын тулд энэхүү дүрмийг хэрэгжүүлдэг.
Сүүлийн үеийн бусад асуулт, хариулт Машин сургалтанд ахиц дэвшил гаргах:
- Машин сургалтын явцад том өгөгдлийн багцтай ажиллахад ямар хязгаарлалт байдаг вэ?
- Машины сургалт нь харилцан ярианы тусламж үзүүлж чадах уу?
- TensorFlow тоглоомын талбай гэж юу вэ?
- Хүсэл эрмэлзэлтэй горим нь TensorFlow-ийн тархсан тооцооллын функцийг саатуулдаг уу?
- Google үүлэн шийдлүүдийг том өгөгдөлтэй ML загварыг илүү үр дүнтэй сургах үүднээс тооцоололыг хадгалах сангаас салгахад ашиглаж болох уу?
- Google Cloud Machine Learning Engine (CMLE) нь загварын сургалт дууссаны дараа нөөцийг автоматаар олж авах, тохируулах, мөн нөөцийг зогсоохыг санал болгодог уу?
- Машин сургалтын загваруудыг дур зоргоороо том өгөгдлийн багц дээр ямар ч саадгүй сургах боломжтой юу?
- CMLE-г ашиглах үед хувилбар үүсгэхэд экспортлогдсон загварын эх сурвалжийг зааж өгөх шаардлагатай юу?
- CMLE нь Google Cloud хадгалах сангийн датаг уншиж, дүгнэлт гаргахдаа тусгайлан бэлтгэгдсэн загварыг ашиглаж чадах уу?
- Tensorflow-ийг гүн мэдрэлийн сүлжээг (DNN) сургах, дүгнэлт хийхэд ашиглаж болох уу?
Бусад асуулт, хариултыг "Machine Learning-д ахиц дэвшил" хэсгээс үзнэ үү