Datenbank Charakteristiken
- Die Datenbank enthält 285 Manuskriptseiten, 6000 Wortbilder und 8000 segmentierte Zeichenbilder.
- Die Bilder der Manuskriptseiten sind in ihren ursprünglichen Farben im PNG-Format gespeichert, während die Wortbilder in drei verschiedenen Versionen gespeichert sind (Graustufen, binär und ausgedünnt).
- Das Thema der meisten Manuskriptsammlungen ist die islamische Rechtsprechung. Die handgeschriebenen Wörter umfassen häufige Vokabeln, internationale Städtenamen sowie Begriffe bezüglich Sicherheit.
Statistiken:
Die Häufigkeitsanalyse beweist, dass die Buchstabenverteilung in der IESK-arDB fast das gleiche Häufigkeitsmuster aufweist wie die Buchstabenverteilung der umfassenden digitalen Korpora, die im Intellyze verwendet werden und etwa 1.297.259 Wörter oder 5.122.132 Buchstaben enthalten. Ein normalisierter Chi-Quadrat-Test zeigt, dass die Buchstabenhäufigkeit in beiden Quellen fast der gleichen Verteilung folgt, mit einem Anpassungswert von X=0,98.
The Letters frequency in IESK-arDB compared to the letters frequency in huge digital corpora. | The frequency distribution of Arabic letters in IESK-arDB, sorted according to the alphabet sequence. |