Google Vision API ашиглан зургаас задалсан текстэд хандахын тулд та API-ийн оптик тэмдэгт таних (OCR) чадавхийг ашиглахтай холбоотой хэд хэдэн алхмуудыг дагах боломжтой. Google Vision API дахь OCR технологи нь гар бичмэл зэрэг зургуудаас текстийг илрүүлэх, задлах боломжийг олгодог. Энэ функц нь визуал өгөгдөлд агуулагдах текстийн мэдээллийг шинжлэх, ойлгох шаардлагатай програмуудад ялангуяа ашигтай байдаг.
Юуны өмнө та Google Vision API-тай ажиллахад шаардлагатай орчныг бүрдүүлэх хэрэгтэй. Үүнд Google Cloud Console-д төсөл үүсгэх, Vision API-г идэвхжүүлэх, API түлхүүр эсвэл үйлчилгээний бүртгэлийн түлхүүр гэх мэт шаардлагатай баталгаажуулалтын итгэмжлэлүүдийг авах зэрэг орно.
Орчноо тохируулсны дараа та Vision API-ийн `asyncBatchAnnotateFiles` аргыг ашиглан зургийн файл дээр OCR хийх боломжтой. Энэ арга нь боловсруулахад зориулагдсан зургийн файлуудын жагсаалтыг дамжуулж, үр дүнг асинхрон байдлаар хүлээн авах боломжийг олгодог. Эсвэл та зургийн жагсаалтыг шууд боловсруулахын тулд `asyncBatchAnnotateImages` аргыг ашиглаж болно.
Зургаас текстийг задлахын тулд та `AnnotateImageRequest` объектын жишээг үүсгэж, хүссэн функцийг зааж өгөх хэрэгтэй. Энэ тохиолдолд та зургаас текст задлахыг хүсэж байгаагаа илэрхийлэхийн тулд `TEXT_DETECTION` функцийг тохируулна. Та мөн OCR-ийн нарийвчлалыг сайжруулахын тулд хэлний зөвлөмж гэх мэт нэмэлт параметрүүдийг зааж өгч болно.
Дараа нь та зургийн файлыг base64 кодлогдсон стринг болгон кодлож, кодлогдсон зургийн өгөгдлийг ашиглан "Image" объектын жишээг үүсгэх хэрэгтэй. Энэ `Image` объектыг өмнө нь үүсгэсэн `AnnotateImageRequest` объектод нэмэх ёстой.
Хүсэлтийг тохируулсны дараа та өөрийн сонгосон аргаас хамааран `batchAnnotateImages` эсвэл `batchAnnotateFiles` аргыг ашиглан үүнийг Vision API руу илгээж болно. API нь зургийг боловсруулж, задалсан текстийг агуулсан хариултыг буцаана.
Хариултаас задалсан текст рүү хандахын тулд та `AnnotateImageResponse` объектын `textAnnotations` талбарыг давтаж болно. Энэ талбарт `EntityAnnotation` объектуудын жагсаалтыг агуулж байгаа бөгөөд тус бүр нь зурган дээрх илэрсэн текстийн элементийг төлөөлдөг. `EntityAnnotation` объект бүрийн `тайлбар` талбар нь задалсан текстийг агуулна.
Google Vision API ашиглан зургаас задалсан текстэд хэрхэн хандахыг харуулсан Python дээрх жишээ кодын хэсэг энд байна:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
Энэ жишээн дээр "зургийн_текстээс_extract_text" функц нь зургийн файл руу орох замыг оролт болгон авч, Vision API руу хүсэлт илгээхийн тулд Google Cloud Vision клиент номын санг ашигладаг. Дараа нь задалсан текстийг хэвлэнэ.
Google Vision API ашиглан зургаас задалсан текстэд хандахын тулд та орчныг тохируулж, хүссэн функцээр `AnnotateImageRequest` объект үүсгэж, зургийн файлыг кодлож, API руу хүсэлт илгээж, задалсан текстийг сэргээх хэрэгтэй. хариултаас. Vision API-ийн OCR боломжууд нь гар бичмэл зэрэг зургуудаас текстийг илрүүлэх, задлах боломжийг олгодог.
Сүүлийн үеийн бусад асуулт, хариулт Гар бичмэлээс текстийг олж илрүүлэх:
- Google Vision API ашиглан нарийн төвөгтэй баримт бичгүүдээс текст задлахад ямар хязгаарлалт үүсч болох вэ?
- Google Vision API-ийн текстийн тайлбарт итгэх итгэлийн түвшин ямар ач холбогдолтой вэ?
- Google Vision API нь гараар бичсэн тэмдэглэлээс текстийг хэрхэн зөв таньж, гаргаж авах вэ?
- Гараар бичсэн зургаас текстийг илрүүлэх, задлахад ямар бэрхшээл тулгардаг вэ?
- Google Vision гар бичмэлийг таньж чадах уу?