AmdoSoft hat seinen RPA Roboter b4 Bot verbessert. Nun kann der Roboter auf die ausgereifte OCR-Technologie von Google zugriefen um auch Texte in Bildern und PDFs erkennen, in denen Schrift sonst nicht für die Software erkennbar wäre. Die neue, auf künstliche Intelligenz basierte Erweiterung ermöglicht stetig wachsende Kompetenz des Roboters und garantiert Effizienzsteigerung.
RPA Roboter von AmdoSoft entwickelt sich in Richtung Künstliche Intelligenz
Vor wenigen Wochen hat unser AmdoSoft b4 Bot ein bedeutendes Software-Update erhalten. Mit der Version v7.2 wurde eine OCR Technologie implementiert, die es dem b4 Bot ermöglicht, Schriftzeichen auch in Bildern und Dokumenten zu erfassen, wenn diese Schrift nicht eindeutig als Textzeichenfolge deklariert ist. Damit macht unser RPA-Roboter einen wichtigen Schritt in Richtung Künstliche Intelligenz, denn Programme mit OCR (optical character recognition) lernen mit jeder Interpretation dazu. Technisch ist dies ein bedeutender Unterschied zu rein algorithmisch operierenden Systemen, die starr nach vorgefertigten Vorschriften agieren.
Was ist eigentlich künstliche Intelligenz?
In der öffentlichen Diskussion wird sehr verallgemeinernd und inflationär von künstlicher Intelligenz gesprochen, wenn Software bestimmte Aufgaben übernimmt, die vorher ein Mensch ausführte. In den meisten Fällen stimmt dies aber gar nicht. Wenn ein Software Roboter beispielsweise Rechnungen ausliest, Summen extrahiert und diese in eine Tabelle einfügt, so geschieht dies zwar schnell und fehlerfrei, ist aber letztlich doch nur das Ausführen relativ einfacher Vorgaben. Künstliche Intelligenz im eigentlichen Sinne meint jedoch, dass das Programm aus eigenem Handeln neue Vorgaben für künftige Operationen ableitet. Es lernt mit jedem Vorgang dazu und befolgt nicht einfach nur starr die Befehle, die ihm einprogrammiert wurden.
Wo eindeutige Anweisungen an ihre Grenzen stoßen
Das exakte Ausführen vorher sehr eindeutig formulierter Befehle ist keinesfalls eine Schwäche von RPA Software Robotern, sondern sogar ihre große Stärke. In unserem gerade erwähnten Beispiel von den Rechnungssummen schafft es der b4 Bot, große Mengen an Dokumenten mit immer der gleichen Genauigkeit zu bearbeiten. Er kennt keine Interpretationsspielräume und macht daher auch keine Fehler. Somit kann ein repetitiver Prozess, der klaren Regeln folgt, theoretisch unendlich lange und ohne Pause bearbeitet werden.
Das funktioniert allerdings nur, solange das zugrundeliegende Datenmaterial eindeutig interpretierbar ist – in unserem Beispiel also als unmissverständliche Anzahl Zeichen in einem Textdokument. Was aber, wenn eine Rechnung als PDF oder Scan vorliegt? Für die Software ist dies wenig mehr als ein einziges Bild, aus dem es keine Informationen extrahieren kann. Da der Bot bislang über keine künstliche Intelligenz verfügte, konnte die zugewiesene Aufgabe nicht ausgeführt werden. Mit der OCR Technologie ändert sich dies.
Update auf v7.2 – Unser b4 Bot wird schlauer
Unser b4 Bot nutzt mit dem neuesten Update die Tesseract OCR Technologie von Google, die zu den führenden Erkennungstechnologien gehört. Damit lassen sich Zeichenketten aus Bildern und Dokumenten lesen und in ein Textformat konvertieren, mit dem der b4 Bot dann normal weiterarbeiten kann. Im Prinzip tippt der Bot mit OCR also den Text aus einem PDF in ein Textdokument ab – nur wesentlich schneller und fehlerfreier als jeder Mensch. So werden auch Rechnungen als PDF oder Scan lesbar und können weiterverarbeitet werden, ohne dass der Prozess angehalten und manuell unterstützt werden muss. Das klingt profan, ist aber technisch unglaublich komplex für eine Maschine, die ja nicht in dem Sinne lesen kann wie wir. Es reicht schließlich nicht mehr, der Software zu sagen, welches Zeichen im Text welche Bedeutung hat. Nun muss der Bot aus einem Bild interpretieren, welches Zeichen sich jeweils hinter diesem Bildausschnitt verbirgt.
So lernt der Bot das Lesen
Zunächst einmal wird das Programm mit einer großen Anzahl unterschiedlicher Zeichenformen gefüttert, mit denen es die ausgelesenen Abschnitte aus dem Bild vergleichen kann. Es bekommt also tausend verschiedene As. Dann vergleicht es das Symbol aus dem Bild und wenn es genügend strukturelle Übereinstimmungen gibt, interpretiert die Software daraus: Ja, das ist wohl ein A. Die Lernkomponente kommt allerdings erst dann zum Tragen, wenn es eben nicht genug Übereinstimmungen gibt. Dann beginnt der Roboter nämlich zu schätzen. Anders als bei rein algorithmischen Bots gibt es dabei auch Fehler. Doch genau daraus lernt der Bot. Anders gesagt: Mit jedem neuen A, das er erkennt und auch mit jedem vermeintlichen A, das dann doch eine 4 ist, lernt der b4 Bot dazu und seine Datenbank wächst und wächst.
Mit OCR ist unser b4 Bot also nochmal schlauer und für unsere Kunden nochmals wertvoller geworden. Möchten Sie mehr über unsere RPA-Lösungen wissen? Dann zögern Sie nicht, mit uns Kontakt aufzunehmen. Wir freuen uns auf Sie!