Google Vision API ашиглан зургаас задалсан текстэд хэрхэн хандах вэ?

by EITCA академи / 27 оны арванхоёрдугаар сарын 2023-ний Лхагва гараг / онд хэвлэгдсэн Хиймэл оюун, EITC/AI/GVAPI Google Vision API, Харааны өгөгдөлд текстийг ойлгох, Гар бичмэлээс текстийг олж илрүүлэх, Шалгалтын тойм

Google Vision API ашиглан зургаас задалсан текстэд хандахын тулд та API-ийн оптик тэмдэгт таних (OCR) чадавхийг ашиглахтай холбоотой хэд хэдэн алхмуудыг дагах боломжтой. Google Vision API дахь OCR технологи нь гар бичмэл зэрэг зургуудаас текстийг илрүүлэх, задлах боломжийг олгодог. Энэ функц нь визуал өгөгдөлд агуулагдах текстийн мэдээллийг шинжлэх, ойлгох шаардлагатай програмуудад ялангуяа ашигтай байдаг.

Юуны өмнө та Google Vision API-тай ажиллахад шаардлагатай орчныг бүрдүүлэх хэрэгтэй. Үүнд Google Cloud Console-д төсөл үүсгэх, Vision API-г идэвхжүүлэх, API түлхүүр эсвэл үйлчилгээний бүртгэлийн түлхүүр гэх мэт шаардлагатай баталгаажуулалтын итгэмжлэлүүдийг авах зэрэг орно.

Орчноо тохируулсны дараа та Vision API-ийн `asyncBatchAnnotateFiles` аргыг ашиглан зургийн файл дээр OCR хийх боломжтой. Энэ арга нь боловсруулахад зориулагдсан зургийн файлуудын жагсаалтыг дамжуулж, үр дүнг асинхрон байдлаар хүлээн авах боломжийг олгодог. Эсвэл та зургийн жагсаалтыг шууд боловсруулахын тулд `asyncBatchAnnotateImages` аргыг ашиглаж болно.

Зургаас текстийг задлахын тулд та `AnnotateImageRequest` объектын жишээг үүсгэж, хүссэн функцийг зааж өгөх хэрэгтэй. Энэ тохиолдолд та зургаас текст задлахыг хүсэж байгаагаа илэрхийлэхийн тулд `TEXT_DETECTION` функцийг тохируулна. Та мөн OCR-ийн нарийвчлалыг сайжруулахын тулд хэлний зөвлөмж гэх мэт нэмэлт параметрүүдийг зааж өгч болно.

Дараа нь та зургийн файлыг base64 кодлогдсон стринг болгон кодлож, кодлогдсон зургийн өгөгдлийг ашиглан "Image" объектын жишээг үүсгэх хэрэгтэй. Энэ `Image` объектыг өмнө нь үүсгэсэн `AnnotateImageRequest` объектод нэмэх ёстой.

Хүсэлтийг тохируулсны дараа та өөрийн сонгосон аргаас хамааран `batchAnnotateImages` эсвэл `batchAnnotateFiles` аргыг ашиглан үүнийг Vision API руу илгээж болно. API нь зургийг боловсруулж, задалсан текстийг агуулсан хариултыг буцаана.

Хариултаас задалсан текст рүү хандахын тулд та `AnnotateImageResponse` объектын `textAnnotations` талбарыг давтаж болно. Энэ талбарт `EntityAnnotation` объектуудын жагсаалтыг агуулж байгаа бөгөөд тус бүр нь зурган дээрх илэрсэн текстийн элементийг төлөөлдөг. `EntityAnnotation` объект бүрийн `тайлбар` талбар нь задалсан текстийг агуулна.

Google Vision API ашиглан зургаас задалсан текстэд хэрхэн хандахыг харуулсан Python дээрх жишээ кодын хэсэг энд байна:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

Энэ жишээн дээр "зургийн_текстээс_extract_text" функц нь зургийн файл руу орох замыг оролт болгон авч, Vision API руу хүсэлт илгээхийн тулд Google Cloud Vision клиент номын санг ашигладаг. Дараа нь задалсан текстийг хэвлэнэ.

Google Vision API ашиглан зургаас задалсан текстэд хандахын тулд та орчныг тохируулж, хүссэн функцээр `AnnotateImageRequest` объект үүсгэж, зургийн файлыг кодлож, API руу хүсэлт илгээж, задалсан текстийг сэргээх хэрэгтэй. хариултаас. Vision API-ийн OCR боломжууд нь гар бичмэл зэрэг зургуудаас текстийг илрүүлэх, задлах боломжийг олгодог.

Сүүлийн үеийн бусад асуулт, хариулт Гар бичмэлээс текстийг олж илрүүлэх:

Илүү олон асуулт, хариулт:

Талбар: Хиймэл оюун
хөтөлбөр: EITC/AI/GVAPI Google Vision API (гэрчилгээжүүлэх хөтөлбөрт очно уу)
Хичээл: Харааны өгөгдөлд текстийг ойлгох (холбогдох хичээл рүүгээ яв)
сэдэв: Гар бичмэлээс текстийг олж илрүүлэх (холбогдох сэдэв рүү оч)
Шалгалтын тойм

Доор тэмдэглэгдсэн: Хиймэл оюун, Google Cloud Vision API, Зураг боловсруулах, OCR, Оптик тэмдэгтийг таних, Текст задлах

EITCA академи

Google Vision API ашиглан зургаас задалсан текстэд хэрхэн хандах вэ?

Сүүлийн үеийн бусад асуулт, хариулт Гар бичмэлээс текстийг олж илрүүлэх:

Илүү олон асуулт, хариулт:

EITCA академи нь Европын мэдээллийн технологийн гэрчилгээжүүлэх тогтолцооны нэг хэсэг юм

EITCA Академийн EITCI DSJC татаасыг 80% дэмжих эрхтэй

EITCA академи

НЭГДСЭН НЭГДСЭН МЭДЭЭЛЛИЙН НЭГДСЭН НЭГДСЭН ХЭРЭГЛЭЭГЭЭРЭЙ

Таны мэдээлэл үгээ мартсан уу?

Акаунт үүсгэх

Google Vision API ашиглан зургаас задалсан текстэд хэрхэн хандах вэ?

Сүүлийн үеийн бусад асуулт, хариулт Гар бичмэлээс текстийг олж илрүүлэх:

Илүү олон асуулт, хариулт:

EITCA Академийн EITCI DSJC татаасыг 80% дэмжих эрхтэй