TensorFlow Keras Tokenizer API нь байгалийн хэлний боловсруулалтын (NLP) даалгаврын чухал алхам болох текст өгөгдлийг үр дүнтэй токенжуулах боломжийг олгодог. TensorFlow Keras-д Tokenizer instance-ийг тохируулах үед тохируулж болох параметрүүдийн нэг нь `num_words` параметр бөгөөд энэ нь үгсийн давтамжаас хамаарч хадгалагдах үгсийн хамгийн их тоог тодорхойлдог. Энэ параметрийг зөвхөн заасан хязгаар хүртэл хамгийн түгээмэл үгсийг авч үзэх замаар үгсийн сангийн хэмжээг хянахад ашигладаг.
`num_words` параметр нь Tokenizer объектыг эхлүүлэх үед дамжуулж болох нэмэлт аргумент юм. Энэ параметрийг тодорхой утгад тохируулснаар Токенизатор зөвхөн өгөгдлийн багц дахь хамгийн их тохиолддог `үгийн_тоо - 1` үгийг авч үзэх бөгөөд үлдсэн үгсийг үгийн сангүй тэмдэгт гэж үзнэ. Энэ нь ялангуяа том өгөгдлийн багцтай ажиллах үед эсвэл санах ойн хязгаарлалттай үед хэрэгтэй байж болно, учир нь үгсийн сангийн хэмжээг хязгаарлах нь загварын санах ойн хэмжээг багасгахад тусалдаг.
"Үгийн_тоо" параметр нь токенжуулалтын үйл явцад нөлөөлөхгүй харин Токенизаторын ажиллах үгсийн сангийн хэмжээг тодорхойлдог гэдгийг анхаарах нь чухал. `Үгийн_тоо` хязгаарын улмаас үгийн санд ороогүй үгсийг Tokenizer эхлүүлэх үед заасан `oov_token`-д буулгана.
Практикт `үгийн_тоо` параметрийг тохируулах нь өгөгдлийн багц дахь хамгийн хамааралтай үгнүүдэд анхаарлаа төвлөрүүлж, загварын гүйцэтгэлд чухал нөлөө үзүүлэхгүй байж болох цөөн давтамжтай үгсийг хаях замаар загварын үр ашгийг дээшлүүлэхэд тусална. Гэсэн хэдий ч чухал мэдээллийг алдахгүйн тулд тодорхой өгөгдлийн багц болон гарт байгаа даалгавар дээр үндэслэн `үгийн_тоо`-д тохирох утгыг сонгох нь чухал юм.
TensorFlow Keras Tokenizer API-д `num_words` параметрийг хэрхэн ашиглаж болох жишээ энд байна:
python from tensorflow.keras.preprocessing.text import Tokenizer # Initialize a Tokenizer object with a maximum of 1000 words tokenizer = Tokenizer(num_words=1000) # Fit the Tokenizer on some text data texts = ['sample text data for tokenization'] tokenizer.fit_on_texts(texts) # Convert text to sequences using the Tokenizer sequences = tokenizer.texts_to_sequences(texts) print(sequences)
Дээрх жишээн дээр Токенизаторыг `num_words=1000`-аар эхлүүлсэн бөгөөд үгийн сангийн хэмжээг 1000 үгээр хязгаарласан. Дараа нь Tokenizer нь жишээ текст өгөгдөлд багтах бөгөөд текстийг Tokenizer ашиглан дараалал болгон хувиргадаг.
TensorFlow Keras Tokenizer API дахь `num_words` параметр нь өгөгдлийн багц дахь давтамж дээр үндэслэн авч үзэх үгсийн дээд тоог зааж өгөх замаар үгсийн сангийн хэмжээг хянах боломжийг олгодог. `Үгийн_тоо`-д тохирох утгыг тохируулснаар хэрэглэгчид NLP ажлуудын загварын гүйцэтгэл болон санах ойн үр ашгийг оновчтой болгох боломжтой.
Сүүлийн үеийн бусад асуулт, хариулт EITC/AI/TFF TensorFlow Fundamentals:
- Хэрхэн оруулах давхаргыг ашиглан үгсийг вектор болгон дүрслэх графикт тохирох тэнхлэгүүдийг автоматаар хуваарилах вэ?
- CNN-д хамгийн их нөөц бүрдүүлэх зорилго юу вэ?
- Хувирмал мэдрэлийн сүлжээ (CNN) дахь шинж чанарыг задлах процессыг дүрсийг танихад хэрхэн ашигладаг вэ?
- TensorFlow.js дээр ажиллаж байгаа машин сургалтын загваруудад асинхрон сургалтын функцийг ашиглах шаардлагатай юу?
- TensorFlow Keras Tokenizer API-г хамгийн түгээмэл үгсийг олоход ашиглаж болох уу?
- TOCO гэж юу вэ?
- Машин сургалтын загвар дахь хэд хэдэн эрин үе ба загварыг ажиллуулахаас урьдчилан таамаглах нарийвчлалын хооронд ямар хамааралтай вэ?
- TensorFlow-ийн мэдрэлийн бүтэцтэй сургалтын API-тай хөрш зэргэлдээх багц нь байгалийн график өгөгдөл дээр суурилсан сургалтын нэмэгдүүлсэн мэдээллийн багц үүсгэдэг үү?
- TensorFlow-ийн мэдрэлийн бүтэцтэй сургалтын програмын хөршүүдийн API гэж юу вэ?
- Мэдрэлийн бүтэцтэй сургалтыг байгалийн график байхгүй өгөгдөлд ашиглаж болох уу?
Бусад асуулт, хариултыг EITC/AI/TFF TensorFlow Fundamentals-аас үзнэ үү