Google Vision API को प्रयोग गरेर छविबाट निकालिएको पाठ पहुँच गर्न, तपाईंले API को अप्टिकल क्यारेक्टर रिकग्निसन (OCR) क्षमताहरू प्रयोग गर्ने चरणहरूको श्रृंखला पछ्याउन सक्नुहुन्छ। Google Vision API मा रहेको OCR प्रविधिले हस्तलेखन सहित छविहरूबाट पाठ पत्ता लगाउन र निकाल्न सक्षम बनाउँछ। यो कार्यक्षमता विशेष गरी अनुप्रयोगहरूमा उपयोगी छ जसलाई दृश्य डेटामा अवस्थित पाठ्य जानकारीको विश्लेषण र बुझाइ आवश्यक हुन्छ।
सर्वप्रथम, तपाईंले Google Vision API सँग काम गर्न आवश्यक वातावरण सेट अप गर्न आवश्यक छ। यसमा Google क्लाउड कन्सोलमा एउटा परियोजना सिर्जना गर्ने, Vision API सक्षम गर्ने, र API कुञ्जी वा सेवा खाता कुञ्जी जस्ता आवश्यक प्रमाणीकरण प्रमाणहरू प्राप्त गर्ने समावेश छ।
तपाईंको वातावरण सेटअप भएपछि, तपाईंले छवि फाइलमा OCR प्रदर्शन गर्न Vision API को `asyncBatchAnnotateFiles` विधि प्रयोग गर्न सक्नुहुन्छ। यो विधिले तपाईंलाई प्रशोधनका लागि छवि फाइलहरूको सूची पास गर्न र एसिन्क्रोनस रूपमा परिणामहरू प्राप्त गर्न अनुमति दिन्छ। वैकल्पिक रूपमा, तस्विरहरूको सूची सिधै प्रशोधन गर्नको लागि तपाईंले `asyncBatchAnnotateImages` विधि प्रयोग गर्न सक्नुहुन्छ।
छविबाट पाठ निकाल्नको लागि, तपाईंले `AnnotateImageRequest` वस्तुको एक उदाहरण सिर्जना गर्न र इच्छित सुविधाहरू निर्दिष्ट गर्न आवश्यक छ। यस अवस्थामा, तपाईंले छविबाट पाठ निकाल्न चाहनुहुन्छ भनेर संकेत गर्नको लागि `TEXT_DETECTION` सुविधा सेट गर्नुहुनेछ। तपाईंले OCR को शुद्धता सुधार गर्न भाषा सङ्केत जस्ता अतिरिक्त प्यारामिटरहरू पनि निर्दिष्ट गर्न सक्नुहुन्छ।
अर्को, तपाईंले छवि फाइललाई आधार 64-इन्कोड गरिएको स्ट्रिङमा सङ्केतन गर्नुपर्छ र इन्कोड गरिएको छवि डेटा प्रयोग गरेर `छवि` वस्तुको उदाहरण सिर्जना गर्न आवश्यक छ। यो `Image` वस्तु पहिले सिर्जना गरिएको `AnnotateImageRequest` वस्तुमा थपिनुपर्छ।
अनुरोध सेटअप गरिसकेपछि, तपाईँले रोजेको दृष्टिकोणमा निर्भर गर्दै, `batchAnnotateImages` वा `batchAnnotateFiles` विधि प्रयोग गरेर Vision API मा पठाउन सक्नुहुन्छ। API ले छविलाई प्रशोधन गर्नेछ र निकालिएको पाठ समावेश भएको प्रतिक्रिया फिर्ता गर्नेछ।
प्रतिक्रियाबाट निकालिएको पाठ पहुँच गर्न, तपाईं `AnnotateImageResponse` वस्तुको `textAnnotations` फिल्डमा दोहोर्याउन सक्नुहुन्छ। यो फिल्डमा `EntityAnnotation` वस्तुहरूको सूची समावेश छ, प्रत्येकले छविमा पत्ता लगाइएको पाठ तत्वलाई प्रतिनिधित्व गर्दछ। प्रत्येक `EntityAnnotation` वस्तुको `description` फिल्डमा निकालिएको पाठ समावेश हुन्छ।
यहाँ पाइथनमा एउटा उदाहरण कोड स्निपेट छ जसले Google Vision API प्रयोग गरेर छविबाट निकालिएको पाठ कसरी पहुँच गर्ने भनेर देखाउँछ:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
यस उदाहरणमा, `extract_text_from_image` प्रकार्यले इनपुटको रूपमा छवि फाइलको बाटो लिन्छ र Vision API मा अनुरोध पठाउन Google क्लाउड भिजन क्लाइन्ट लाइब्रेरी प्रयोग गर्दछ। निकालिएको पाठ त्यसपछि छापिएको छ।
Google Vision API को प्रयोग गरेर छविबाट निकालिएको पाठ पहुँच गर्न, तपाईंले वातावरण सेटअप गर्न आवश्यक छ, इच्छित सुविधाहरूको साथ एक `AnnotateImageRequest` वस्तु सिर्जना गर्न, छवि फाइल सङ्केतन, API मा अनुरोध पठाउन, र निकालिएको पाठ पुन: प्राप्त गर्न आवश्यक छ। प्रतिक्रिया बाट। Vision API को OCR क्षमताहरूले हस्तलेखन सहित छविहरूबाट पाठ पत्ता लगाउन र निकासी गर्न सक्षम बनाउँछ।
अन्य भर्खरका प्रश्न र उत्तरहरू सम्बन्धमा हस्तलेखनबाट पाठ पत्ता लगाउने र निकाल्दै:
- गुगल भिजन एपीआई प्रयोग गरेर जटिल कागजातहरूबाट पाठ निकाल्दा कुन सीमाहरू उत्पन्न हुन सक्छन्?
- Google Vision API को पाठको व्याख्यामा विश्वासको स्तरको महत्त्व के हो?
- गुगल भिजन एपीआईले हस्तलिखित नोटहरूबाट पाठ कसरी सही रूपमा चिन्न र निकाल्न सक्छ?
- हस्तलिखित छविहरूबाट पाठ पत्ता लगाउन र निकाल्ने चुनौतीहरू के हुन्?
- गुगल भिजनले हस्तलेखन चिन्न सक्छ?