Artificial Intelligence on the road: ‘Wat is er zo AI aan OCR?’

Krijn portrait 1

In de rubriek ‘AI on the road’ behandelt Artificial Intelligence (AI) kenner Krijn vraagstukken rondom AI die hij tijdens meetings met klanten tegenkomt. Kortom, hele basale vragen en antwoorden over deze complexe materie. We voelen Krijn aan de tand over een vraag die hem vaak wordt gesteld; ‘Wat is er zo AI aan OCR?’

 

Krijn vertel; wat is er zo AI aan OCR, deze techniek bestaat immers toch al jaren?
‘Dat is inderdaad een vraag die mij vaak wordt gesteld door organisaties waar ik langsga om te praten over wat Artificial Intelligence kan betekenen voor hun archief. OCR, de techniek om bestanden om te zetten tot leesbare, doorzoekbare tekst, is niets nieuws, dat bestaat al jaren. Wat er nu anders is dan jaren geleden is dat de hedendaagse OCR-toepassing, voorzien van AI-techniek, in staat is ook hele oude archieven te doorzoeken. En bovendien ook heel snel. De OCR-engine van nu is er een waarvan de accuraatheid en snelheid enorm zijn verbeterd, doordat gebruik wordt gemaakt van machine learning technologie.’

 

‘Een klant had omgerekend 54 jaar nodig om het omvangrijke archief te OCR-en. Dan kom je dus niet weg met je bestaande OCR-tools. Dan heb je zwaarder geschut nodig.’

 

Kun je dit verduidelijken met een voorbeeld?
‘Wij leveren onze OCR/AI-toepassing, Hyarchis Search-it, bij diverse organisaties binnen de hypotheeksector. Hypotheekdossiers worden lang bewaard, twintig tot dertig jaar is heel normaal. De documenten die zich in deze archieven bevinden zijn vaak gescand in een tijd dat er minder technisch vernuft en controle was. Veelal zijn deze documenten voorzien van ruis, bijvoorbeeld koffievlekken, wat het moeilijker maakt om deze om te zetten naar doorzoekbare tekst. Wat voor ons vanuit het menselijk oog makkelijk te herkennen is, is voor een computer een stuk lastiger.

Bovendien zijn deze archieven naast heel oud vaak ook heel omvangrijk. Wij hebben onlangs een rekensom gemaakt voor een klant met een omvangrijk archief van enkele honderden miljoenen pagina’s. Om deze te digitaliseren was 54 jaar nodig. Dan kom je dus niet weg met je bestaande OCR-tools. Dan heb je zwaarder geschut nodig.’

 

Wat is dat zwaardere geschut dan, is dat wanneer Artificial Intelligence om de hoek komt kijken?
‘Search-it legt de focus niet alleen op de OCR-functie, maar richt zich daarnaast op de voor- en nabewerking. De tool herkent documenten, bepaalt automatisch wat er nodig is voor een maximale bewerking en optimaliseert deze voor OCR. Daarna worden de bestanden herkend en voorzien van een ‘blinde’ OCR laag die op de documenten wordt gezet. Als laatste wordt het document weer in elkaar gezet, dit alles zonder iets aan te passen in het originele bestand.

De AI-techniek vind je dus vooral terug in de manier waarop de documenten worden geoptimaliseerd en in het OCR-stuk zelf. OCR wordt steeds beter in het herkennen en dit wordt door AI ook continu verbeterd. Dit alles zorgt ervoor dat dergelijke trajecten geen jaren meer vragen, maar slechts enkele maanden.’

 

‘Ongestructureerde inhoud van documenten wordt door middel van AI omgezet naar gestructureerde data.’

 

Wat is het doel om een archief optimaal te herkennen?
‘De waarde van archieven zit niet in de documenten an sich, maar in de inhoud ervan. Content wordt steeds meer leading. Logisch dat steeds meer organisaties de inhoud uit hun documenten willen gebruiken. AI helpt om content, de inhoud, meer tot haar recht te laten komen. Met Search IT maak je op een slimme manier gebruik van AI, doordat je archief relatief eenvoudig en snel volledig doorzoekbaar wordt. Hierdoor kun je op een intelligente manier gebruik gaan maken van je content. Je weet exact wat er in je archief staat en kunt deze complexe data gaan omzetten tot inzichten. Een mooie vervolgstap is het classificeren van documenten door middel van Hyarchis Read-it. Hierover ga ik in een volgend blog verder in.’

 

Dan nu even terug naar de praktijk. Hoe en waar pas je deze techniek toe?
‘Nederland kent een aantal grote partijen die de administratieve afhandeling voor de hypotheeksector verzorgen, denk aan Stater en Quion – beide overigens klant van Hyarchis. Aan de voorkant heb je te maken met een geldverstrekker, maar de achterkant wordt door deze partijen geregeld.

Neem Quion als voorbeeld. Zij beheert de complete hypotheekdossiers voor geldverstrekkers.
Dit betekent een archief van miljoenen documenten. De nog ongestructureerde inhoud van deze documenten wordt door middel van AI omgezet naar gestructureerde data. Deze data biedt tal van mogelijkheden om de dienstverlening verder te optimaliseren. Hiervoor is door Hyarchis in samenwerking met Quion een roadmap samengesteld, waarbij Search-IT als eerste project wordt behandeld. Daarna wordt de AI tool, Hyarchis Classify getest.’

 

Lees hier het bericht over de samenwerking met Quion

 

En dat leidt bij Quion uiteindelijk tot..?
Quion krijgt maandelijks zo’n vijftigduizend e-mails. Deze mails worden door een team persoonlijk bekeken en toegewezen aan een bepaalde workflow. Of het nu het toevoegen van een bouwdepot betreft of het verzoek tot het toesturen van een hypotheekdossier, alle e-mails en bijlagen worden geopend, waarna het juiste proces gestart wordt. Met onze AI tools worden alle documenten doorzoekbaar, waarna Hyarchis Classify deze documenten classificeert en geheel geautomatiseerd toekent aan de juiste workflow. Inmiddels is de proof of concept met Hyarchis Search-it goedgekeurd. Terwijl dit in Q1 in productie wordt genomen start parallel de proof of concept met Read IT.’

 

‘Data wordt omgezet in inzichten.’

 

Kunnen we concluderen dat de huidige OCR-tools zeer zeker AI zijn?
‘Correct. De AI-techniek in OCR-tools zorgt ervoor dat de inhoud van documenten nog beter en sneller herkend en gelezen wordt. Bovendien zorgt AI ervoor dat data wordt omgezet in inzichten. Dus ja, het antwoord op de vraag luidt dan ook: hedendaagse OCR-functionaliteit is AI.

 

Download de artificial intelligence whitepapers hieronder: 

Hyarchis Artificial Intelligence | Governance toolsHyarchis Artificial Intelligence | Business Intelligence tools

Over ‘AI on the road’
In de rubriek AI on the road behandelt Artificial Intelligence kenner Krijn Logister AI-vraagstukken die hij onderweg tegenkomt. Krijn: ‘Juist hele basale klantvragen en duidelijke antwoorden daarop verduidelijken de complexe AI-materie. Met deze rubriek willen we AI en de toepassing daarvan minder abstract maken. AI is een hulpmiddel, voor kleine en grote toepassingen.’

Auteur: Krijn Logister


 

Contactformulier