Fachgebiet Neuro-Informationstechnik

IESK-arDB: A database for off-line Arabic handwriting

IESK-arDB: A database for off-line Arabic handwriting

Übersicht

Die IESK-arDB ist eine handschriftliche Offline-Datenbank, die 285 Seiten eines historischen Manuskripts aus dem 14. Jahrhundert, mehr als 6000 handschriftliche Wortbilder und 8000 segmentierte Buchstabenbilder enthält. Das Vokabular der Wortdatenbank umfasst die meisten arabischen Substantive, Verben, Länder- und Städtenamen, Sicherheitsbegriffe und Wörter, die zum Schreiben von Bankbeträgen verwendet werden.

 

Datenerfassung:

Bilder von Manuskriptseiten werden aus mehreren islamischen Werken gesammelt, die vermutlich im 14. Jahrhundert geschrieben wurden. Die Hauptquellen sind das Buch Al-FRO von IBN MUFLIH und das Buch von FAWAID FIGHIYAH (der Autor ist unbekannt). Die handschriftlichen Wortproben stammen von 22 Schreibern aus verschiedenen arabischen Ländern und auch aus Ländern, in denen die arabische Schrift das Schreibmedium ist. Die Schreiber wurden gebeten, so weit wie möglich im Naskh-Stil zu schreiben. Dies hat zwei Gründe: Zum Einen ist Naskh die am häufigsten verwendete Schreibweise, zum Anderen betont Naskh im Vergleich zu anderen Schreibstilen die meisten strukturellen Eigenheiten der Buchstaben.

 

Grundwahrheiten: 

Grundwahrheiten zu den Manuskriptseiten sind jeweils UTF-8 codierte, von Hand erstellte Textdateien mit der Transkription. Jede Zeile in der Textdatei entspricht genau einer Zeile in der jeweiligen Muniskriptseite. Zur besseren Darstellung empfehlen wir, die Schriftart Segoe UI einzustellen. Jedes Wort wird durch eine Ground-Truth-XML-Datei vollständig beschrieben, die neben anderen wichtigen Einträgen auch Segmentierungsinformationen enthält.

    
handwritten document handwritten word  segmented word
Sample for an historical Arabic text page.   Samples for handwritten Arabic words. Word segmentation ground truth. 
GT
 Visualisierung der Grundwahrheiten von synthetischen Proben.

 

Datenbank Charakteristiken

 

  • Die Datenbank enthält 285 Manuskriptseiten, 6000 Wortbilder und 8000 segmentierte Zeichenbilder.
  • Die Bilder der Manuskriptseiten sind in ihren ursprünglichen Farben im PNG-Format gespeichert, während die Wortbilder in drei verschiedenen Versionen gespeichert sind (Graustufen, binär und ausgedünnt).
  • Das Thema der meisten Manuskriptsammlungen ist die islamische Rechtsprechung. Die handgeschriebenen Wörter umfassen häufige Vokabeln, internationale Städtenamen sowie Begriffe bezüglich Sicherheit.

 Statistiken: 

Die Häufigkeitsanalyse beweist, dass die Buchstabenverteilung in der IESK-arDB fast das gleiche Häufigkeitsmuster aufweist wie die Buchstabenverteilung der umfassenden digitalen Korpora, die im Intellyze verwendet werden und etwa 1.297.259 Wörter oder 5.122.132 Buchstaben enthalten. Ein normalisierter Chi-Quadrat-Test zeigt, dass die Buchstabenhäufigkeit in beiden Quellen fast der gleichen Verteilung folgt, mit einem Anpassungswert von X=0,98.

distr2 letter distribution
The Letters frequency in IESK-arDB compared to the letters frequency in huge digital corpora. The frequency distribution of Arabic letters in IESK-arDB, sorted according to the alphabet sequence.  
Registrierung und Download

Registrierung:

Bitte senden Sie eine E-Mail mit Ihrem Namen und Ihrer Anschrift an

 

Download:

Sample (keine Registrierung erforderlich) 

IESK-arDB

 

Wenn Sie diese Datenbank in Ihrer Forschung verwenden, zitieren Sie bitte die folgende Arbeit:

[1] M. Elzobi, A. Al-Hamadi, Z. A. Aghbari, and L. Dinges, “IESK-ArDB: a database for handwritten Arabic and an optimized topological segmentation approach,” International Journal on Document Analysis and Recognition (IJDAR) , vol. 16, no. 3, pp. 295–308, 2013.

[2] L. Dinges, A. Al-Hamadi, M. Elzobi, and S. El-etriby, “Synthesis of Common Arabic Handwritings to Aid Optical Character Recognition Research,” Sensors , vol. 16, no. 3, p. 346, 2016.

Letzte Änderung: 17.01.2024 - Ansprechpartner: Webmaster