Fachgebiet Neuro-Informationstechnik

Datenbank Charakteristiken

 

Bildergalerie (1 Bilder)
 handwritten document (Bild 1 von 1) 
  • Die Datenbank enthält 285 Manuskriptseiten, 6000 Wortbilder und 8000 segmentierte Zeichenbilder.
  • Die Bilder der Manuskriptseiten sind in ihren ursprünglichen Farben im PNG-Format gespeichert, während die Wortbilder in drei verschiedenen Versionen gespeichert sind (Graustufen, binär und ausgedünnt).
  • Das Thema der meisten Manuskriptsammlungen ist die islamische Rechtsprechung. Die handgeschriebenen Wörter umfassen häufige Vokabeln, internationale Städtenamen sowie Begriffe bezüglich Sicherheit.

 Statistiken: 

Die Häufigkeitsanalyse beweist, dass die Buchstabenverteilung in der IESK-arDB fast das gleiche Häufigkeitsmuster aufweist wie die Buchstabenverteilung der umfassenden digitalen Korpora, die im Intellyze verwendet werden und etwa 1.297.259 Wörter oder 5.122.132 Buchstaben enthalten. Ein normalisierter Chi-Quadrat-Test zeigt, dass die Buchstabenhäufigkeit in beiden Quellen fast der gleichen Verteilung folgt, mit einem Anpassungswert von X=0,98.

distr2 letter distribution
The Letters frequency in IESK-arDB compared to the letters frequency in huge digital corpora. The frequency distribution of Arabic letters in IESK-arDB, sorted according to the alphabet sequence.  

Letzte Änderung: 20.01.2022 - Ansprechpartner: Webmaster