IESK-arDB: A database for off-line Arabic handwriting
IESK-arDB: A database for off-line Arabic handwriting
- Die Datenbank enthält 285 Manuskriptseiten, 6000 Wortbilder und 8000 segmentierte Zeichenbilder.
- Die Bilder der Manuskriptseiten sind in ihren ursprünglichen Farben im PNG-Format gespeichert, während die Wortbilder in drei verschiedenen Versionen gespeichert sind (Graustufen, binär und ausgedünnt).
- Das Thema der meisten Manuskriptsammlungen ist die islamische Rechtsprechung. Die handgeschriebenen Wörter umfassen häufige Vokabeln, internationale Städtenamen sowie Begriffe bezüglich Sicherheit.
Statistiken:
Die Häufigkeitsanalyse beweist, dass die Buchstabenverteilung in der IESK-arDB fast das gleiche Häufigkeitsmuster aufweist wie die Buchstabenverteilung der umfassenden digitalen Korpora, die im Intellyze verwendet werden und etwa 1.297.259 Wörter oder 5.122.132 Buchstaben enthalten. Ein normalisierter Chi-Quadrat-Test zeigt, dass die Buchstabenhäufigkeit in beiden Quellen fast der gleichen Verteilung folgt, mit einem Anpassungswert von X=0,98.
![]() |
![]() |
| The Letters frequency in IESK-arDB compared to the letters frequency in huge digital corpora. | The frequency distribution of Arabic letters in IESK-arDB, sorted according to the alphabet sequence. |
Registrierung:
Bitte senden Sie eine E-Mail mit Ihrem Namen und Ihrer Anschrift an
Download:
Sample (keine Registrierung erforderlich)
Wenn Sie diese Datenbank in Ihrer Forschung verwenden, zitieren Sie bitte die folgende Arbeit:
[1] M. Elzobi, A. Al-Hamadi, Z. A. Aghbari, and L. Dinges, “IESK-ArDB: a database for handwritten Arabic and an optimized topological segmentation approach,” International Journal on Document Analysis and Recognition (IJDAR) , vol. 16, no. 3, pp. 295–308, 2013.
[2] L. Dinges, A. Al-Hamadi, M. Elzobi, and S. El-etriby, “Synthesis of Common Arabic Handwritings to Aid Optical Character Recognition Research,” Sensors , vol. 16, no. 3, p. 346, 2016.


