Modulo 1: guida preparatoria
MODULO DI APPRENDIMENTO
Panoramica
Il badge Amazon Textract e carichi di lavoro .NET dimostra la padronanza del servizio Amazon Textract e dei carichi di lavoro .NET. Questa guida preparatoria spiega che cosa devi sapere per superare la valutazione, argomento per argomento, con risorse da studiare. Dovresti anche avere esperienza pratica nell'uso del servizio, o con le tue applicazioni o con un tutorial AWS.
Dopo la fase preparatoria, passa al Modulo 2 per sostenere l'esame di valutazione.
Scopo
Textract è un servizio di machine learning (ML) che estrae automaticamente testo, scrittura a mano e dati da documenti scansionati come PDF e immagini. Si spinge oltre il semplice riconoscimento ottico dei caratteri (OCR) per identificare, capire ed estrarre dati da moduli e tabelle. Textract utilizza il machine learning per leggere ed elaborare qualsiasi tipo di documento estraendo in modo accurato testo, scrittura a mano, tabelle e altri dati senza che sia necessario un intervento manuale.
Video: What is Amazon Textract?
Vantaggi
Textract offre i seguenti vantaggi:
- Incentivo a una maggiore efficienza aziendale e a un processo decisionale più rapido di pari passo con una riduzione dei costi
- Estrazione di approfondimenti con elevata precisione da teoricamente qualsiasi documento
- Aumento o riduzione della pipeline di elaborazione dei documenti per adattare rapidamente l'attività alla domanda di mercato
- Automazione sicura dell'elaborazione dei dati con norme di privacy dei dati, di crittografia e di conformità
Funzionalità
Le funzionalità di Textract includono:
- Integrazione del rilevamento del testo di documenti nelle app. Textract elimina la complessità relativa alla creazione di funzionalità di riconoscimento di testo nelle applicazioni mettendo a disposizione analisi efficaci e precise con una semplice API.
- Analisi dei documenti dimensionabile: Textract consente di analizzare ed estrarre rapidamente i dati da milioni di documenti e permette così di accelerare il processo decisionale.
- Più lingue. Textract supporta inglese, spagnolo, tedesco, italiano, francese e portoghese.
- Più formati di documento. Textract è in grado di elaborare documenti PDF, TIFF, JPEG e PNG.
Prezzi
Dovresti avere familiarità con il modello di prezzo e il piano gratuito di Amazon Textract. I costi di Textract sono calcolati solo in base all'uso effettivo. Non sono previste tariffe minime né spese anticipate. Textract addebita esclusivamente il costo delle pagine elaborate, a prescindere che tu estragga testo, testo con tabelle, dati di moduli e query o che elabori fatture e documenti di identità.
- Tariffe variabili in base all'API. Textract include cinque API (Detect Document Text, Analyze Document, Analyze Expense, Analyze ID, Analyze Lending), ciascuna con tariffe specifiche addebitate ogni 1.000 pagine.
- Le tariffe possono variare tra regioni AWS.
- Dopo aver raggiunto una soglia mensile, si paga una tariffa ridotta. Una volta raggiunta la soglia mensile di un'API, si paga una tariffa inferiore per il resto del mese. Ad esempio, l'API Detect Document addebita meno costi dopo il primo milione di documenti in un mese. Le soglie e le tariffe sono diverse per ciascuna API.
- Il Piano gratuito AWS dura tre mesi e offre un numero variabile di pagine gratuite per ogni API. Ad esempio, sono previste gratuitamente 1.000 pagine al mese per l'API Detect Document Text e 100 pagine al mese per l'API Analyze Expense.
- Puoi stimare i costi utilizzando il Calcolatore dei prezzi AWS dalla pagina dei prezzi.
Casi d'uso
Di seguito sono riportati i casi d'uso più comuni per l'uso di Amazon Textract:
- Creazione di un indice di ricerca intelligente. Utilizzando Textract puoi creare librerie di testo rilevato nei file di immagine e PDF.
- Uso dell'estrazione intelligente del testo per l'elaborazione del linguaggio naturale (NLP). Textract consente di controllare il modo in cui il testo viene raggruppato come input per le applicazioni NLP. Può estrarre il testo come parole e righe. Inoltre, raggruppa il testo in base alle celle della tabella se l'opzione di analisi delle tabelle dei documenti è abilitata.
- Accelerazione dell'acquisizione e della normalizzazione dei dati provenienti da diverse origini. Textract consente l'estrazione di testo e dati tabulari da un'ampia varietà di documenti, tra cui documenti finanziari, rapporti di ricerca e note mediche.
- Automatizzazione dell'acquisizione dei dati da moduli. Textract consente di estrarre dati strutturati dai moduli. Con le API, puoi creare funzionalità di estrazione nei flussi di lavoro aziendali esistenti in modo che i dati degli utenti inviati mediante moduli possano essere estratti in un formato utilizzabile.
- Automatizzazione della classificazione dei documenti e dell'estrazione. Con l'API di elaborazione dei documenti Analyze Lending di Textract, puoi automatizzare la classificazione dei documenti in prestito in varie classi di documento e quindi indirizzare automaticamente le pagine classificate all'operazione di analisi corretta per eseguire un'ulteriore elaborazione.
Di seguito sono riportati alcuni casi d'uso di settore per Textract.
- Servizi finanziari: estrai in modo preciso dati commerciali essenziali come rate di mutuo, nomi di richiedenti e totali di fatture in più moduli finanziari per elaborare richieste di prestiti e mutui in pochi minuti.
- Sanità e scienze della vita: assisti al meglio i pazienti e gli assicurati estraendo dati importanti sui pazienti dai moduli di ricovero ospedaliero, dalle polizze assicurative e dai moduli di pre-autorizzazione. Mantieni i dati organizzati e nel loro contesto originale ed elimina la revisione manuale dell'elaborazione.
- Settore pubblico: estrai in modo semplice i dati principali da moduli relativi all'amministrazione pubblica come prestiti per piccole imprese, moduli fiscali federali o richieste commerciali con un alto livello di precisione.
Guida per gli sviluppatori - Che cos'è Amazon Textract?
Pagina dei dettagli del prodotto Amazon Textract - Casi d'uso
Funzionalità
È necessario comprendere queste funzionalità:
Funzionamento di Amazon Textract
1. Riconoscimento ottico dei caratteri. Textract utilizza il riconoscimento ottico dei caratteri (OCR) per rilevare automaticamente testo stampato, scrittura a mano e numeri nella scansione o nel rendering di un documento, ad esempio un documento legale o la scansione di un libro.
Guida per gli sviluppatori - Rilevamento del testo
2.Analyze Lending. L'API Analyze Lending di Textract è un'API di elaborazione intelligente dei documenti gestita e preconfigurata che automatizza completamente l'estrazione di informazioni dai pacchetti di prestito. È sufficiente caricare i documenti del proprio mutuo nell'API Analyze Lending e i modelli di machine learning preconfigurati classificheranno e suddivideranno il pacchetto di documenti in base al tipo di documento.
Guida per gli sviluppatori - Analyze Lending
3. Estrazione da moduli. È possibile individuare in automatico coppie chiave-valore nelle immagini dei documenti e mantenere il contesto senza alcun intervento manuale. Una coppia chiave-valore è un set di elementi di dati collegati. Ad esempio, in un documento, il campo "First Name" (Nome) è la chiave e "Jane" il valore. Ciò permette di importare facilmente i dati estratti in un database o di utilizzarli come variabile in un'applicazione.
Guida per gli sviluppatori - Analisi di documenti - Estrazione da moduli
4. Estrazione da tabelle. Textract preserva la composizione dei dati archiviati nelle tabelle durante l'estrazione. Ciò è utile per i documenti costituiti per la maggior parte da dati strutturati, come rapporti finanziari o referti medici con tabelle in colonne e righe. È possibile caricare i dati estratti su un database attraverso uno schema predefinito. Ad esempio, le righe di elementi numerici e quantità di un inventario manterranno la loro associazione, in modo che un'applicazione per la gestione degli inventari possa incrementare i totali delle voci in modo semplice.
Guida per gli sviluppatori - Tabelle
5. Rilevamento di firme. Textract consente di rilevare le firme su qualsiasi documento o immagine. In questo modo è facile rilevare in automatico le firme su documenti come assegni, moduli di richiesta di prestito e moduli di richiesta di risarcimento. La posizione delle firme e i punteggi di affidabilità associati sono inclusi nella risposta dell'API
Guida per gli sviluppatori - Analisi di documenti - Firme
6. Estrazione basata su query. Textract fornisce la flessibilità di specificare i dati che è necessario estrarre dai documenti utilizzando query. È possibile specificare le informazioni necessarie sotto forma di domande in linguaggio naturale (ad esempio "Come si chiama il cliente?") e ricevere l'informazione esatta (ad esempio "Mario Rossi") nell'ambito della risposta dell'API. Non è necessario conoscere la struttura dei dati nel documento (tabella, modulo, campo implicato, dati annidati) o preoccuparsi delle variazioni tra versioni e formati dei documenti. Le query di Textract sono pre-addestrate su un'ampia varietà di documenti, tra cui buste paga, estratti conto, moduli W-2, moduli di richiesta di prestito, note ipotecarie, richieste di risarcimento e tessere sanitarie. La flessibilità fornita dalle query di Textract riduce la necessità di post-elaborazione, affidamento alle revisioni manuali dei dati estratti o addestramento di modelli di ML. L'estrazione delle query è disponibile solo nel rilevamento dei documenti in inglese.
Guida per gli sviluppatori - Analisi di documenti - Query
7. Riconoscimento della scrittura a mano: molti documenti, come moduli di ricovero ospedaliero e domande di lavoro, includono sia testo manoscritto sia testo stampato. Amazon Textract può estrarre entrambi da documenti scritti in inglese con alti punteggi di affidabilità, a prescindere che il testo sia in forma libera o racchiuso in tabelle. I documenti possono anche contenere un misto di testo stampato e manoscritto.
Guida per gli sviluppatori - Che cos'è Amazon Textract?
8. Fatture e ricevute. Fatture e ricevute possono avere un'ampia gamma di layout, pertanto l'estrazione di dati manuale su larga scala è un processo lungo e difficile. Amazon Textract sfrutta il machine learning (ML) per capire il contesto di fatture e ricevute ed estrae in automatico i dati rilevanti, ad esempio nome del fornitore, numero della fattura, prezzo delle voci, importo totale e termini di pagamento. Quando invii una fattura o una ricevuta all'API AnalyzeExpense, questa restituisce una serie di oggetti ExpenseDocument. Ogni ExpenseDocument è ulteriormente suddiviso in LineItemGroups e SummaryFields.
Guida per gli sviluppatori - Analisi di fatture e ricevute
Oggetti di risposta per fatture e ricevute
9. Documenti d'identità. Textract sfrutta il machine learning (ML) per capire il contesto di documenti d'identità come passaporti e patenti di guida statunitensi senza la necessità di modelli o configurazione. Puoi estrarre in automatico informazioni specifiche come la data di scadenza e la data di nascita oppure identificare ed estrarre in modo intelligente le informazioni implicite come il nome e l'indirizzo. Utilizzando Analyze ID, le aziende che forniscono servizi di verifica dei documenti d'identità e quelle che operano nei settori finanziario, sanitario e assicurativo possono facilmente automatizzare la creazione di account, la pianificazione di appuntamenti, le domande di lavoro e altro, permettendo ai clienti di inviare un'immagine o una scansione del proprio documento d'identità.
Guida per gli sviluppatori - Analisi di documenti di identità
10. Flusso di lavoro di revisione umana integrato. Textract è direttamente integrato con Amazon Augmented AI (A2I) e permette così di implementare facilmente la revisione umana di testo stampato e manoscritto estratto dai documenti. Scegli una soglia di affidabilità per la tua applicazione e tutte le previsioni con un'affidabilità inferiore a tale soglia verranno automaticamente sottoposte alla convalida di revisori umani. È inoltre possibile specificare quali coppie chiave-valore dovrebbero essere sottoposte alla revisione umana e configurare A2I in modo che sottoponga a revisione anche documenti selezionati in modo casuale.
Guida per gli sviluppatori - Concetti fondamentali di Amazon A2I
AWS SDK per .NET
Usa AWS SDK per .NET per interagire con Textract dal codice .NET. È necessario conoscere le classi e i metodi SDK principali utilizzati per supportare le funzionalità elencate sopra in Funzionalità.
- Per utilizzare l'SDK, aggiungi il pacchetto NuGet AWSSDK.Textract al tuo progetto C#.
- Per lavorare con Textract, crea un'istanza di AmazonTextractClient e chiama i suoi metodi.
- Alcuni metodi SDK, i cui nomi terminano con Async, vengono chiamati in modo asincrono con la parola chiave await di C#.
- Utilizza il modello SDK standard per creare oggetti di richiesta da passare ai metodi ed elaborare gli oggetti di risposta restituiti. La documentazione SDK di un metodo descrive i relativi oggetti di richiesta e risposta. Gli oggetti di richiesta e risposta presentano lo stesso nome root del metodo che supportano. Ad esempio, gli oggetti di richiesta e risposta del metodo DetectDocumentTextAsync sono denominati DetectDocumentTextRequest e DetectDocumentTextResponse.
using (var textractClient = new AmazonTextractClient(RegionEndpoint.USEast1))
{
var bytes = File.ReadAllBytes("example.png");
Console.WriteLine("Detect Document Text");
var detectResponse = await textractClient.DetectDocumentTextAsync(new DetectDocumentTextRequest
{
Document = new Document
{
Bytes = new MemoryStream(bytes)
}
});
foreach (var block in detectResponse.Blocks)
{
Console.WriteLine($"Type {block.BlockType}, Text: {block.Text}");
}
}
Operazioni sincrone e asincrone
Le operazioni di estrazione sono raggruppate nei tipi "sincrone" e "asincrone". Ciò non ha alcuna relazione con i metodi asincroni di C#.
- Le operazioni "sincrone" restituiscono risultati quasi in tempo reale. Servono per rilevare e analizzare il testo in documenti a pagina singola.
- Le operazioni "asincrone" vengono eseguite in background. Servono per l'elaborazione di documenti a più pagine. Ad esempio, l'elaborazione di un file PDF con oltre 1.000 pagine richiede molto tempo, ma l'elaborazione asincrona del file PDF consente all'applicazione di completare altre attività durante il completamento dell'operazione. I nomi di questi metodi iniziano con la parola "Start", ad esempio StartDocumentAnalysis.
Guida per gli sviluppatori - Elaborazione di documenti con operazioni sincrone
Guida per gli sviluppatori - Elaborazione di documenti con operazioni asincrone
Righe e parole di testo
Le operazioni di estrazione restituiscono il testo rilevato in un elenco di oggetti Block. Questi oggetti rappresentano righe di testo o parole testuali rilevate nella pagina di un documento. Viene restituito un elenco di oggetti PAGE, LINE. e WORD con relazioni genitore-figlio.
Riquadri di delimitazione
Le operazioni di estrazione restituiscono la posizione e la geometria degli elementi trovati in una pagina di documento. Tutti i dati estratti vengono restituiti con coordinate di riquadri di delimitazione, cioè cornici poligonali che racchiudono ciascun dato identificato, ad esempio una parola, una riga, una tabella o singole celle all'interno di una tabella. Ciò ti aiuta a verificare il punto del documento sorgente da cui proviene una parola o un numero e ti guida quando i risultati della ricerca forniscono scansioni di documenti originali. Ad esempio, quando ricerchi dettagli sull'anamnesi di un paziente nei referti medici, puoi facilmente trovare il documento di origine e prendere nota per le ricerche future.
Guida per gli sviluppatori - Posizione di un elemento in una pagina di documento
Soglie di affidabilità regolabili
Quando si estraggono informazioni dai documenti, Textract restituisce un punteggio di affidabilità per tutti gli elementi che identifica, così puoi prendere decisioni informate su come utilizzare i risultati. Ad esempio, se estrai informazioni da registri fiscali e desideri garantire una precisione elevata, puoi contrassegnare ogni voce con un punteggio di affidabilità inferiore al 95% in modo che venga rivista da una persona. È possibile impostare una soglia inferiore per altri documenti in cui gli errori avrebbero meno conseguenze negative, come nell'elaborazione di CV o nella digitalizzazione di registri archiviati.
Guida per gli sviluppatori - Best practice per Amazon Textract - Utilizza i punteggi di affidabilità
Gestione delle chiamate limitate e delle connessioni interrotte
Un'operazione Textract può dare esito negativo se si supera il numero massimo di transazioni al secondo (TPS), con conseguente rallentamento dell'applicazione da parte del servizio, o quando la connessione si interrompe. Puoi gestire la limitazione (della larghezza di banda della rete) e l'interruzione delle connessioni ritentando in automatico l'operazione. Specifica il numero di tentativi includendo il parametro Config quando crei il client Amazon Textract. AWS consiglia un numero di cinque tentativi. AWS SDK ritenta un'operazione il numero di volte specificato prima di dare esito negativo e generare un'eccezione.
Guida per gli sviluppatori - Gestione delle chiamate limitate e delle connessioni interrotte
Endpoint e quote di Amazon Textract
Quote
L'uso di Amazon Textract è soggetto a quote. Esistono due tipi di quote:
- Le quote impostate non possono essere modificate. Queste includono i formati di file accettati, i limiti di dimensione del file e del numero di pagine, i limiti specifici del PDF, la dimensione e la rotazione delle immagini, la dimensione dei caratteri, il set di caratteri e i tipi di ID.
Quote impostate in Amazon Textract
- Le quote predefinite possono essere visualizzate o modificate attraverso la console Service Quotas. Le quote TPS determinano la frequenza con cui puoi richiedere a Textract di elaborare un nuovo documento. Il limite di processi simultanei definisce quanti processi si possono eseguire in parallelo in un dato momento.
Puoi stimare il fabbisogno di quote con Service Quotas Calculator.
Best practice
Dovresti avere familiarità con le seguenti best practice per Textract:
- Fornisci un documento di input ottimale: un'immagine di alta qualità di almeno 150 DPI, in un linguaggio e in un formato supportati da Textract.
- Utilizza i punteggi di affidabilità. Tieni in considerazione i punteggi di affidabilità restituiti dalle operazioni dell'API di Textract e la sensibilità del loro caso d'uso. La soglia ottimale dipende dall'applicazione. Nelle applicazioni sensibili agli errori di rilevamento (falsi positivi), applica una soglia di punteggio di affidabilità minima.
- Valuta l'uso della revisione umana. Puoi incorporare la revisione umana nei flussi di lavoro. Ciò è particolarmente importante per le applicazioni sensibili, come i processi aziendali che comportano decisioni finanziarie.
Guida per gli sviluppatori - Best practice per Amazon Textract
Esperienza pratica
Dovresti avere esperienza nell'uso di Textract per estrarre testo, scrittura a mano e dati dai documenti. Se non disponi di un'applicazione con cui lavorare, puoi utilizzare i tutorial e le dimostrazioni elencati di seguito.
Tutorial
Extract text and structured data (tutorial della console AWS)
Hello, Textract! (tutorial di codifica)
Applicazioni di esempio
Assistente di sintesi vocale AWS
Video della community
Intro to Textract and .NET 6 - EP01 di Tom Moore
Intro to Textract and .NET 6 - EP02 di Tom Moore
Esperienza AWS
Principiante o intermedio
Esperienza .NET
Intermedio
Tempo richiesto per il completamento
Fino a 3 ore a seconda dell'esperienza precedente
Servizi utilizzati
Amazon Textract
Ultimo aggiornamento
7 luglio 2022
Moduli
Questo tutorial si articola nei seguenti moduli. Puoi esaminare i moduli per intero o sfogliarli e ripassarli, in base alla tua esperienza e al tuo livello di preparazione.
- Guida preparatoria (3 ore).
- Valutazione delle competenze: valutazione di Amazon Textract e carichi di lavoro .NET