Author: Keshk, Mohamed Yassin./ Title: An algorithmic approach for printed Arabic text recognition /

Search In this Thesis

العنوان

An algorithmic approach for printed Arabic text recognition /

المؤلف

Keshk, Mohamed Yassin.

هيئة الاعداد

باحث / محمد يس السعيد كشك

مشرف / علي ابراهيم الدسوقي

مشرف / مفرج محمد سالم

مشرف / محمد يس كشك

الموضوع

Text processing (Computer science) Optical character recognition. Arabic character sets (Data processing)

تاريخ النشر

1991.

عدد الصفحات

97 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

الهندسة

تاريخ الإجازة

1/1/1991

مكان الإجازة

جامعة المنصورة - كلية الهندسة - الحاسبات والتحكم

الفهرس

Only 14 pages are availabe for public view

from

115

from

115

Abstract

يعتبر التعرف علي النصوص من اهم الموضوعات في مجال التعرف علي الانماط وقد بذل الباحثون جهدا كبيرا في هذا المجال بالنسبة للنصوص اللاتينية والصينية اما بالنسبة للنصوص العربية فيمكن القول بان المحاولات الجادة لم تبدا فعليا الافي منتصف الثمانينات وقد صادف الباحثين العديد من الصعاب فبالاضافة الي مصاعب التعرف علي الحروف كانت هناك الطبيعة الخاصة لحروف اللغة العربية حيث ان الحرف في اللغة العربية متغير الشكل حسب وضعه في الكلمة كذلك وجود النقاط اعلي او اسفل او داخل الحرف مما يسبب احيانا بعض المشاكل في بعض الحروف المتشابهة في بناءها الرئيسي.وللتعرف الاتوماتيكى على النصوص , لابد من وسيلة ادخال مناسبة تمكن المستخدم من وضع البيانات المطلوب ادراكها وإرسالها الى الحاسب للتعامل معها دون تدخل منة . ولذلك تم استخدام الماسح الاتوماتيكى(Automatic scanner ) كوسيلة اخال مناسبة فى حالة الادراك الالى .
وتكمن المشكلة الاساسية لادراك النصوص فى الطبيعة المتصلة للحروف , مما يحتم تقسيم النص الى سطور ثم إلى كلمات ثم أخيرا إلى حروف . ويتم تقسيم الكلمة إلى الحروف المكونة لها بعد الحصول على المحيط الخارجى المغلق للكلمة . ويتكم إكتشاف الحد الفاصل بين حرفين متصلين عندما يكون متوسط المسافة بين أبعد نقطتي تقاطع للمحيط مع خط رأسى أقل من قيمة محددة مسبقا وقابلة للتغيير تبعا لنوع الحروف .ويتم تمثيل الكلمة (بعد تقسيمها) بسلسلة من المحيطات الخارجية للحروف المكونة لها , مما يؤدى الى سهولة التعرف على هذة الحروف .
يتم حساب مجموعم من معاملات منحنى التلائم(Curve Fitting) من احداثيات المحيط الخارجى لكل حرف. وتستخدم هذة المعاملات كملامح للحروف حيث يتم إختيارها بحيث تكون غير متعمدة على مكان الحرف او على نقطة البداية للمحيط الخارجى لة . وقد وجد أن متجها ذو ثلاثة أبعاد بالاضافة الى بعض الملامح البائية يعتبر كافيا لتصنيف الحروف الابجدية العربية .
وعند حدوث خطأ فى تقسيم الكلمات الى حروف , يسبب ذلك خطأ فى التصنيف . ولتقليل احتمالات هذ الخطأ يتم رفض تصنيف بعض الحروف عندما يكون قرار المصنف غير مؤكد, ثم يتم إعادة التقسيم مرة أخرى لتصيح الخطا .كذلك تم إضافة مرحلة لمعادلة الاختلاف فى عرض الحروف بين المستخدمة وتدريب المصنف والحروف الناتجة من مرحلة التقسيم .
وقد تم إجراء تجارب معملية لاختيار أداء وكفاءة النظام المقترح على عينات مختلفة مختارة عشوائيا . وقد وجد ان النظام المقترح يحتاج إلى 0.28 ثانية للتعرف على الحرف بكفاءة قدرها 99% تقريبا , مما يثبت كفاءة الملامح المستخدمة للتفريق بين الحروف الابجدية العربية .