English | Deutsch
 
Produkte

ACHTUNG!
Die RecogniContact-Produktserie hat jetzt eine eigene Produkt-Website:

http://address-parser.com
Bitte ändern sie Ihre Bookmarks wenn nötig.

RecogniContact – internationaler Kontaktdaten- und Adress-Parser

Jetzt online testen


Kontaktdaten- und Adressparsing für Ihre Anwendungen


RecogniContact ist eine Programmkomponente, die es Softwareherstellern ermöglicht, die Zerlegung von Kontakt- und Adressangaben in eigene Anwendungen zu integrieren.

  • RecogniContact zerlegt den Text in Felder:
    Name, Straße, PLZ, Ort, usw.

  • RecogniContact standardisiert die Feldwerte:
    Telefonnummer-Formate, Länderbezeichnungen, usw.

  • RecogniContact ergänzt implizite Informationen:
    Geschlecht eines Vornamens, Land einer Adresse, usw.

Überall dort wo Benutzer einer Software Adress- und Kontaktangaben händisch aus anderen Quellen übertragen kann RecogniContact den Aufwand dafür auf ein Minimum reduzieren:

  • Wenn Ihre Kunden Eingabemasken oder Formularfelder mit Kontakt- und Adressinformationen ausfüllen

  • Beim Eintragen von Kontaktdaten in Tabellen oder Datenbanken

  • Beim Standardisieren und Vereinheitlichen von Kontaktangaben


Anwendungsbeispiele
Hier finden Sie einige Beispiele von Anwendungen, in denen RecogniContact bereits zum Einsatz kommt:

  • Eine Anwendung die die Daten aus dem Adressblock am Ende einer Email mit einem Mausklick in eine persönliche Kontaktdatenbank übernimmt

  • Ein Hilfsprogramm, das Adressen, die Sie per E-Email erhalten, automatisch in die Adressfelder eines Rechnungsprogramms übernimmt

  • Ein Tool, mit dem Sie Sales-Leads, die Sie auf Websites sammeln, in eine CRM-Datenbank übernehmen.

  • Eine Formulardrucksoftware, die Ihnen ermöglicht die Namens- und Adressfelder eines Paketscheins, eines Überweisungsschein, o.Ä. mit Werten zu befüllen. Anstatt die Daten Feld für Feld zu übertragen kopieren Sie einfach den kompletten Adressblock.

Windows-COM-Objekt
Help
RecogniContact ist als Windows-COM/ActiveX-Objekt erhältlich und lässt sich mit minimalem Aufwand in eigene Produkte integrieren. Jede aktuelle Windows-Entwicklungsumgebung unterstützt die Integration von COM-Objekten.
Detaillierte technische Information finden Sie in der RecogniContact Online-Hilfe (Englisch).

Kostenlose 30-Tage-Testversion
Eine kostenlose Testversion von RecogniContact ist auf Anfrage bei LoquiSoft erhältlich. Bitte fügen Sie ihrer Anfrage eine kurze Beschreibung des Projektes bei, in das Sie RecogniContact integrieren möchten.


Features

Länder & Sprachen

RecogniContact zerlegt Kontaktangaben ohne Post-Adresse für alle Länder der Welt.

Folgende Voraussetzungen sind dafür erforderlich:

  • Die Daten sind in lateinischen Schriftzeichen notiert
  • Sprachabhängige Elemente sind in einer der derzeit unterstützten 13 Sprachen angegeben.

Für folgende Länder werden auch Kontaktangaben mit Post-Adresse zerlegt. Für diese Länder umfasst RecogniContact eine Datenbank mit Ortsnamen, sodass das Land einer Adresse ermittelt werden kann selbst dann wenn das Land nicht explizit angegeben ist.

Länder
RecogniContact zerlegt für folgende Länder Kontaktangaben inklusive Post-Adressen:

  • AT - Österreich
  • BE - Belgien
  • CH - Schweiz (inkl. Liechtenstein)
  • DE - Deutschland
  • DK - Dänemark
  • ES - Spanien (inkl. Andorra)
  • FI - Finnland
  • FR - Frankreich (inkl. Monaco)
  • GB - Großbritannien
  • IE - Irland
  • IS - Island
  • IT - Italien (inkl. San Marino & Vatikan)
  • LU - Luxemburg
  • NL - Niederlande
  • NO - Norwegen
  • PT - Portugal
  • SE - Schweden
  • US - Vereinigte Staaten

Sprachen
RecogniContact erkennt sprachabhängige Elemente von Kontaktdaten (z.B. Anreden, Ländernamen, Strukturierungselemente) in folgenden Sprachen:

  • Deutsch
  • Dänisch
  • Englisch
  • Finnisch
  • Französisch
  • Isländisch
  • Italienisch
  • Katalanisch
  • Niederländisch
  • Norwegisch
  • Portugiesisch
  • Schwedisch
  • Spanisch

Kontaktdatenfelder

RecogniContact zerlegt einen Text mit Kontaktdaten in folgende Elemente:

  • Angaben zur Person
    • Präfix - Anrede oder Präfix-Titel wie Dr.

    • Vorname
    • Zweiter Vorname oder Initial (Middle Name)
    • Nachname
    • Suffix - Suffix-Titel wie Ph.D., MBA oder Namenssuffix wie junior, jr
    • Position im Unternehmen

  • Angaben zum Unternehmen/zur Organisation
    • Firmenname
    • Abteilung

  • Adresse
    • Straßenanschrift (Straße, Hausnummer)
    • Postleitzahl der Straßenanschrift
    • Postfachanschrift (Postfach-Nummer)
    • Postleitzahl der Postfachanschrift
    • Ort
    • Land
    • Regionsinformation (US-Bundesstaat, Provinz, Kanton, Bundesland, …)

  • Telefonnummern
    • Festnetznummer
    • Mobiltelefonnummer
    • Fax-Nummer

  • Internet
    • E-Mail-Adresse
    • Website

Strukturierungselemente
RecogniContact erkennt Strukturierungselemente, die in die Kontaktangaben eingebettet sind (Vorname: Nachname: PLZ: Ort: Tel: Fax: …) und nutzt sie als Hilfe bei der Interpretation. Strukturierungselemente werden derzeit in 13 Sprachen (siehe oben) erkannt.

Länder-Erkennung
RecogniContact identifiziert automatisch das Land, aus dem Kontaktangaben stammen, anhand folgender Information:

  • Postleitzahlformat und Ortsname (die integrierte Datenbank enthält über 200.000 Ortsnamen)
  • Ländervorwahl von Telefonnummern
  • Länderdomains von E-Mail- oder Web-Adressen

Diese Information wird genutzt, um Telefonnummern auf ein Standardformat mit internationaler Vorwahl zu vereinheitlichen, oder um das Land zur Postadresse hinzuzufügen

Geschlecht von Personen
Wenn ein Kontaktdatensatz den Namen einer Person umfasst, ermittelt RecogniContact das Geschlecht der Personen anhand des Vornamens. 

Vornamen, die keinen Rückschluss auf das Geschlecht zulassen, werden dabei berücksichtigt: Alex, Chris, Sascha, …

Mobiltelefonnummern
Wenn eine Telefonnummer mit der Vorwahl eines Mobilfunknetzes beginnt, ordnet RecogniContact sie automatisch als Mobiltelefonnummer zu

Formatunabhängigkeit
RecogniContact erkennt für jedes Land zusätzlich zu den standardisierten Formaten für Adressangaben und Telefonnummern auch alle sonstigen gebräuchlichen Konventionen. Es ist nicht erforderlich, dass die Elemente einer Kontaktangabe im Quelltext durch bestimmte Trennzeichen strukturiert sind.

Dies ist besonders hilfreich,

  • wenn die Kontaktangaben aus Quellen stammen (E-Mails, Web-Sites, …) in denen die Elemente keine vordefinierte Struktur haben
  • wenn Adressen aus tabellenartig angeordneten Quellen übernommen werden (Spreadsheets, Tabellen auf Websites, …)

Technische Highlights

Ressourcen-Bedarf
RecogniContact wurde auf einen möglichst geringen Ressourcenbedarf optimiert.
Die Redistributables, die am Rechner des Kunden installiert werden, umfassen 3 Dateien mit einer Gesamtgröße von ca. 3 MB. Darin sind bereits alle Daten enthalten, die für die Erkennung der Kontaktdatenelemente erforderlich sind.

Performance
Der Zeitaufwand für das Parsing einer Kontaktangabe liegt im Bereich weniger Millisekunden.

Stand-Alone-/Offline-Lösung
RecogniContact ist eine komplett eigenständige Lösung, die die Zerlegung der Kontaktdaten ausschließlich am Rechner des Kunden durchführt. Eine Verbindung zu einem Server oder der Versand sensibler Kontaktdaten über das Internet an einen Web-Service außerhalb des Unternehmens ist nicht erforderlich.

Geringer Integrationsaufwand
RecogniContact kann als COM-Object mit minimalem Aufwand in eine eigene Windows-Anwendung integriert werden.  In einem Visual-Basic-Projekt integrieren Sie RecogniContact wie folgt:

Dim RC As Object
Dim ParsedContact As Object

Set RC = CreateObject("RecogniContact.Parser")
RC.Initialize("<Name>","<LicenseKey>")

TextToParse = "LoquiSoft, Porzellangasse 7a/8, 1090 Vienna, www.loquisoft.com"

Set ParsedContact = RC.Parse(TextToParse)

...... now use ParsedContact.GetValue(<FieldID>)
...... to access the parsed values

Help
Die vollständige Dokumentation und weitere Code-Beispiele auch in anderen Programmiersprachen finden Sie in der RecogniContact Online-Hilfe (Englisch).

Integrierte Datenbank

RecogniContact enthält eine umfangreiche Datenbank, die unter anderem folgende Informationen enthält:

  • über 200'000 Ortsnamen aus Europa und den USA, die es erlauben das Land einer Post-Adresse zu ermitteln, auch wenn es nicht explizit angegeben ist

  • 12'000 Vornamen mit Angabe zum Geschlecht

  • Ländervorwahlen
    Die internationalen Vorwahlen aller Länder der Welt: +1 (USA & Kanada) bis +997 (Bahamas)

  • Mehrsprachige Städtebezeichnungen
    Brussels, Brussel, Brüssel, Bruxelles, …

  • Länderspezifische Regionsangaben
    US-Bundesstaaten, Bundesländer, Kantone, Provinzen, Counties, …

  • Strings in 13 Sprachen für folgende Elemente:

    • Länder-Namen:
      Germany, Deutschland, Allemagne, Duitsland, …

    • Positionsbezeichnungen:
      Director, Direktor, Directeur, …

    • Hinweise auf Straßennamen:
      street, straße, rue, straat,…

    • Postfach-Bezeichnungen:
      P.O. Box, Postfach, Boîte postale, Postbus, …

    • Titel & Anreden:
      Fr., Mrs, Mme, Mevr, …

    • Gesellschaftsformen von Unternehmen:
      GmbH, Ltd, Sarl, BV, …

    • Strings, die zur Strukturierung der Elemente verwendet werden:
      Vorname:  First name:  Prénom:  Voornaam:  …

Zerlegungsverfahren

Rein musterbasierte Zerlegungsverfahren, in denen versucht wird, die Daten auf wenige Standard-Muster zurückzuführen, scheitern sehr schnell an den Herausforderungen eines zuverlässigen Kontaktdaten- und Adressparsing-Verfahrens.

  • Wenn ein nicht vorhergesehener Adresszusatz verwendet wird
  • Wenn im Quelltext ein falsches Interpunktionszeichen oder ein Leerzeichen zu wenig oder zuviel vorkommt
  • Wenn Elemente nicht explizit durch Zeilenwechsel oder einheitliche Trennsymbole getrennt sind
  • Wenn Elemente von Websites oder aus Spreadsheets übernommen werden, in denen die Daten in einer Tabellenstruktur angeordnet sind, oder nicht einer vordefinierten Reihenfolge entsprechen.

So komplexe und so stark variierende Input-Daten wie Kontaktinformationen lassen sich nicht in einer überschaubaren Anzahl von Erkennungsmustern - etwa in Form von Regular Expressions - abbilden. Dies gilt insbesondere dann, wenn Adressdaten aus unterschiedlichen europäischen Ländern stammen. Nur ein geringer Bruchteil von Kontaktangaben entspricht Standard-Mustern. Eine Auflistung aller gebräuchlichen oder aller tatsächlich verwendeten Muster ist schlicht unmöglich. Darüber hinaus ist eine musterbasierte Zerlegung ab einem gewissen Komplexitätsgrad sehr ressourcenintensiv.

Um dieser Herausforderung zu begegnen hat LoquiSoft mit RecogniContact ein speziell auf das Problem der Zerlegung von Kontakt- und Adressdaten optimiertes Verfahren entwickelt.

RecogniContact zerlegt Kontaktinformationen weitestgehend unabhängig von der Verwendung normierter oder starrer Adressformate, bestimmter Trennzeichen, einheitlicher Struktur und erzielt damit eine unübertroffen hohe Erkennungsgenauigkeit.


Qualitätssicherung

Wie bei jeder Software, die semantische oder sprachabhängige Information verarbeitet, ist auch bei der automatischen Kontaktdatenzerlegung eine geringe Restfehlerrate aufgrund unbekannter oder doppeldeutiger Informationen nicht auszuschließen (Beispiel automatische Rechtschreibprüfung).

Um die Qualität der Zerlegungsergebnisse zu sichern nutzen wir folgende Verfahren:

  • Abgleich mit einer Testdatenbank
    Eine Testdatenbank mit Tausenden händisch zerlegten Kontaktangaben aus der Praxis dient bei jedem Update als Grundlage für die Überprüfung und Verbesserung der Zerlegungsalgorithmen

  • Flexibles Regelwerk
    Das interne Regelwerk unseres Adress- und Kontaktdatenparsers ist flexibel und kann bei Bedarf jederzeit durch neue Regeln, neue Ausnahmen und Ausnahmen von Ausnahmen erweitert werden, ohne dass die Zerlegung langsam, das Verfahren zu komplex oder zu ressourcenintensiv wird.

  • Benutzerfeedback
    Wenn ein Benutzer unseres Endanwender-Produktes ContactCopy auf Fehler bei der Datenerkennung stößt, kann er die falsch zerlegten Kontaktinformation über eine direkt in das Produkt integrierte, web-basierte Feedback-Funktion an uns übermitteln.
    Durch diese Rückmeldungen erhalten wir laufend wertvolles Feedback über notwendige Korrekturen und Erweiterungen an den Erkennungs- und Zerlegungsregeln.

LoquiSoft – Spezialist und semantische Software

Werner Noska, der Gründer von LoquiSoft, verfügt über eine spezialisierte Ausbildung und über 10-jährige Erfahrung mit Artificial Intelligence, semantischer Software, Sprachdatenverarbeitung und Parser-Technologien.

Der Bertelsmann Orthograf! Rechtschreibkonverter wurde vom LoquiSoft-Team entwickelt. Durch die Vertriebspartnerschaft mit dem Bertelsmann Lexikon Verlag wurde es zum Standard-Tool in seinem Bereich.

LoquiSoft hat darüber hinaus für folgende Kunden Lösungen aus dem Bereich Sprachdatenverarbeitung entwickelt: