是的,AWS Textract支持提取印地语文本的能力。下面是一个使用AWS SDK for Python(Boto3)的示例代码,用于从PNG文件中提取印地语文本:
import boto3
def extract_text_from_image(image_path):
# 创建Textract客户端
textract = boto3.client('textract', region_name='us-west-2')
# 读取图像文件
with open(image_path, 'rb') as image:
image_bytes = image.read()
# 调用DetectDocumentText API
response = textract.detect_document_text(Document={'Bytes': image_bytes})
# 提取印地语文本
hindi_text = ''
for item in response['Blocks']:
if item['BlockType'] == 'LINE' and 'Text' in item:
if 'DetectedTextLanguage' in item and item['DetectedTextLanguage'] == 'hi':
hindi_text += item['Text'] + ' '
return hindi_text.strip()
# 调用函数并打印结果
image_path = 'path/to/your/image.png'
result = extract_text_from_image(image_path)
print(result)
在上述代码中,需要将image_path
变量替换为实际的PNG图像文件路径。代码将使用Boto3库创建AWS Textract客户端,然后读取图像文件的字节流。接下来,代码调用detect_document_text
方法来识别图像中的文本块。最后,代码遍历识别出的文本块,并筛选出印地语文本(通过检查DetectedTextLanguage
属性)。
请注意,要使用此代码示例,您需要安装Boto3库并配置AWS凭证。