الجوانب البرمجية في إعداد المعجم المفهرس
للتراكيب المتشابهة لفظًا
في القرآن الكريم

 

 

لتنزيل البحث


أ.د محمد زكي محمد خضر

مجلة دراسات

الجامعة الأردنية

 2003


 

الخلاصة

يستعرض هذا البحث الخطوات البرمجية التي اتبعت لإخراج المعجم المفهرس للتراكيب المتشابهة لفظًا في القرآن الكريم، ابتداءً من إعداد النص القرآني وتحويله إلى قاعدة بيانات شاملة إلى نهاية عملية إخراج الكتاب بشكله الحالي.

يصف البحث خطوات معالجة الكلمات القرآنية بدءًا من الرسم العثماني وانتهاء بجذور كل كلمة قرآنية ووضع ذلك بشكل تفصيلي في قاعدة البيانات الرئيسية للقرآن الكريم.

ثم يصف البحث كيفية إعداد قاعدة بيانات العبارات القرآنية التي اشتقت من قاعدة البيانات الرئيسية. بعد ذلك يعطي البحث تفصيلا لكيفية اشتقاق العبارات التي تتطابق جذور كلماتها مع بعضها البعض والتي هي أساس بناء المعجم والتي سميت العبارات المتشابهة لفظًا. كما يصف البحث أسلوب إجراء تسلسل لهذه العبارات لكي تظهر بالشكل الذي وردت فيه في المعجم.

يخلص البحث إلى استنتاجات وتوصيات حول العناية بالقرآن الكريم والإفادة من قواعد البيانات التي تكونت في أعمال مستقبلية أخرى . كما يشير إلى إمكانية الإفادة من الخطوات التي اعتمدت في هذا العمل لكي تعتمد في أعمال مشابهة أخرى.

 

1-      مقدمة:

    سبق هذا المعجم الذي بين أيدينا جهود عديدة في مجال فهرسة ألفاظ القرآن الكريم حسب جذور الكلمات كان أشهرها المعجم المفهرس لألفاظ القرآن الكريم لمحمد فؤاد عبد الباقي(1) وكتب  التبويب الموضوعي للقرآن الكريم. أما هذا المعجم فله منحىً آخر، فهو خاص بالتراكيب المتشابهة في القرآن . ولقد قام بعض العلماء السابقين بإيراد بعض العبارات القرآنية المتشابهة و تكرارها في القرآن كالثعالبي(2) وابن الجوزي(3) والكرماني(4) وغيرهم ، والتي أسماها بعضهم بالمتشابهات . ولكن لم يقم أحد فيما نعلم بعمل معجم كامل لكل العبارات (أو التراكيب اللفظية) المتشابهة أو المكررة  في القرآن الكريم. وحيث أن لفظة المتشابه قد تفهم أن المقصود بها هو الآيات المتشابهات المذكورة في قولـه تعالى "هُوَ الَّذِي أَنزَلَ عَلَيْكَ الْكِتَابَ مِنْهُ أَيَاتٌ مُّحْكَمَاتٌ هُنَّ أُمُّ الْكِتَابِ وَأُخَرُ مُتَشَابِهَاتٌ فَأَمَّا الَّذِينَ فِي قُلُوبِهِمْ زَيْغٌ فَيَتَّبِعُونَ مَا تَشَابَهَ مِنْهُ ابْتِغَاءَ الْفِتْنَةِ وَابْتِغَاءَ تَأْوِيلِهِ وَمَا يَعْلَمُ تَأْوِيلَهُ إِلاَّ اللَّهُ وَالرَّاسِخُونَ فِي الْعِلْمِ يَقُولُونَ ءَامَنَّا بِهِ كُلٌّ مِّنْ عِندِ رَبِّنَا وَمَا يَذَّكَّرُ إِلاَّ أُولُوا الأَلْبَابِ" لذلك أشير في العنوان أن المقصود هو التشابه اللفظي . كما أن لفظ التكرار قد يشير إلى أن في القرآن تكرارًا زائدًا لا حاجة له وهو محال , فكل لفظة تكررت في أكثر من موضع في القرآن لها معنىً إضافيًا في كل موضع وردت فيه.

     وقد بوّبت العبارات بشكل تسلسلي حسب التسلسل الهجائي لجذور الكلمات المكونة للعبارات . فإن كانت الآية أصلاً مكررة في موضع آخر من القرآن الكريم , ذكر ذلك . وإن كانت العبارة واردة جزءًا من آية , فتورد العبارة الأقصر فالأطول , إن كان هناك اختلاف في عدد مرات الورود . أي أن العبارة الأقصر الواقعة ضمن عبارة أطول لا تذكر , إلاّ إذا كان عدد مرات تكرارها يزيد عن مرات تكرار العبارة الأطول .

     ترد بعض العبارات في القرآن بتشكيل مختلف ، فعبارة ( الرحمن الرحيم ) وردت ست مرات اثنتان منها بالضم  ووردت أربع مرات بالكسر . وقد تم إيراد هاتين العبارتين مع بعضهما وذلك لأن الباحث غالبًا ما يبحث عن العبارة المكررة مهما كان التشكيل في آخرها .

     وقد روعي في تسلسل العبارات المختلفة التشكيل تسلسل الفتح فالضم فالكسر. كما يلاحظ في عبارات ( رب العالمين ) , حيث وردت ثلاث مرات بالفتح وست مرات بالضم وخمس وعشرين مرة بالكسر . وهكذا لكل لفظة مكررة , أشير إلى كل أشكال ورودها بكل التشكيلات الواردة حتى وإن كان عدد مرات ورودها بأحد التشكيلات مرة واحدة . ويصح هذا كذلك إذا كانت العبارة واردة مرة واحدة ولكنها تشترك مع غيرها في الجذور المكونة لكلماتها نفسها.

     ويضم المعجم بعض العبارات المختلفة ذات الكلمات المتقاربة ( خاصة حروف الجر والنفي)  مع بعضها ، ككلمات "إن" و"أن" أو كلمات "لا" و"لم" و"لن" . وقد أوردت  العبارات المحتوية على مثل هذه الكلمات المتقاربة مجتمعة في موضع واحد ليسهل دراستها مع بعض أو منفردة وفق ما يراه الباحث .

    لقد تم تحديد جذور الكلمات بالرجوع الى بعض المصادر اللغوية , مثل لسان العرب(5) أو منهج المرحوم محمد فؤاد عبد الباقي في المعجم المفهرس لألفاظ القرآن الكريم(1) وغيرهما . ولكن ربما وقعت بعض الأخطاء في نسبة كلمة إلى جذر معين أو غيره . وهو أمر وقع فيه بعض الخلاف  بين اللغويين. كما أن بعض العبارات التي تبتدئ بحروف أو ضمائر وضعت تحت عناوين هي ليست جذورًا حقيقية مثل همزة الاستفهام أو (ءن  ) أو ( لم ) أو حروف الجر مثل الباء أو "عن" و"على" وغيرها...

     لقد تضمن المعجم التكرار أو التشابه بين آيتين , إن كانت جذور الكلمات التي في الآيتين تتفق مع جذور عبارة في آية واحدة أو حتى مع جذور عبارة بين آيتين أخريتين . وقد استعملت (*) لتشير الى العلامة بين آيتين. ورغم أن العلاقة بين بعض عبارات الآيات مع بداية الآيات التي تليها لا تبدو ظاهرة للناظر لأول مرة ، إلا أن إثبات ذلك قد يفيد بعض الباحثين.

     وقد أثبت عدد مرات تكرار عبارة معينة بين قوسين ، فمثلاً  (3) تعني تكرارًا ثلاث مرات لعبارة بالنص نفسه . ولكن يجوز أن يكون لها مشابه بتشكيل مختلف أو بكلمات تنتمي الى الجذر نفسه وتأتي كلها متعاقبة مع بعضها البعض . وعلى هذا فإن الغالبية العظمى من التراكيب جاء تكرارها مرة واحدة ولكنها تتفق مع ما قبلها أو ما بعدها بكون جذور كلمات التراكيب المتتالية متطابقة.

التسلسل الهجائي الذي إتبع كان بدءًا بالهمزة المنفردة فالهمزة فوق الألف فالهمزة تحت الألف فالألف فالباء فالتاء المربوطة فالتاء الطويلة فالثاء .. والنهاية بالألف المقصورة فالياء . كما كان الحرف المشدد سابقًا لغير المشدد والمهمل قبل المشكول . وكان تسلسل التشكيل : السكون فالفتحة فالضمة فالكسرة.

لقد احتوى المعجم الذي بين أيدينا جهدًا برمجيًا غير مسبوق في معالجة نص القرآن الكريم ووضعه بشكل مناسب للرجوع إليه من قبل المتخصصين في جانب لم تسبق إليه المعاجم السابقة. لذلك يحاول هذا البحث إستعراض الخطوات البرمجية التي اتبعت في إعداد هذا المعجم. وقد كان لا بد من البدء في هذا الإعداد بالعناية الكافية بنص القرآن الكريم.

تشمل العناية بالنص القرآني الحرص على إدخال النص المشكول إدخالاً صحيحًا وتدقيقه ثم إجراء المعالجات المناسبة له بدءًا من الرسم العثماني وعلامات الوقف والتجويد ثم إدخال هذا النص إلى قاعدة بيانات رئيسة لكلمات القرآن .

قاعدة البيانات الرئيسة هذه احتوت على حقل للكلمات القرآنية بالرسم العثماني وبالرسم العادي ثم أضيفت لها أعمدة عديدة بشكل متتالٍ بدءًا بحذف الشدّات على أول حروف بعض الكلمات التي يسبقها تنوين ثم حذف التشكيل في آخر الكلمات ثم حذف اللواصق في بدء الكلمات ثم تصحيح نواة الكلمة . وبعد ذلك الرجوع إلى صيغة الفعل الذي اشتقت منه الكلمة وانتهاءً بالجذر الذي تعود الكلمة إليه. وقد أجري ذلك بالاستعانة بقواعد بيانات فرعية لهذه الكلمات .

بعد ذلك يصف البحث الخطوات البرمجية التي أجريت على النص القرآني المستخلص من قاعدة البيانات الرئيسة للحصول على العبارات القرآنية التي تشترك كلماتها بجذور متتالية متشابهة وإدراج ذلك ضمن قاعدة بيانات لهذه العبارات لكي يسهل التعامل معها تبويبًا وتدقيقًا وإخراجًا .

يصف البحث كذلك خطوات إخراج المعجم بشكله النهائي ثم يعرّج على الفوائد التي جنيت من هذا العمل البرمجي غير المسبوق .

كما يخلص البحث إلى استنتاجات وتوصيات حول العناية بالقرآن الكريم وإلى كيفية الإفادة من قواعد البيانات الخاصة بالقرآن الكريم في أعمال أخرى .

 

2- إعداد النص القرآني

قد يكون من المقبول في التعامل مع النصوص فيما عدا القرآن الكريم وجود نسبة بسيطة من الخطأ الإملائي أو الخطأ في التشكيل ( إن كان النص مشكولاً ).  وقد تبلغ النسبة المقبولة من الدقة 99,9% ولكن ذلك غير مقبول على الإطلاق في نص القرآن الكريم . فهذه النسبة من الخطأ تعني وجود خطأ مقداره واحدًا بالألف . وحيث أن النص القرآني المشكول يقرب حجمه من 700ألف بايت فوجود خطأ مقداره واحد بالألف يعني 700 خطأ في القرآن كله وهذا ما لا يقبله أحد من المسلمين .

لذلك كانت المهمة الأولى هي التأكد من النص القرآني بنسبة تقرب من 100% تمامًا وهذه المهمة ليست باليسيرة فقد استدعت المهمة قراءة النص المدخل للحاسب عشرات المرات . وليس هذا فحسب ، بل دقق في مراحل تالية بعد إجراء معالجات متعددة على النص القرآني  لتدارك ما تسرب من أخطاء قليلة . وسنشير إلى بعض منها في مراحل لاحقة من هذا البحث.

لذا كان من الضروري اعتماد بعض الأسس المتعلقة بالتعامل مع النص القرآني . أول هذه الأسس هو اعتماد الرسم العثماني للمصحف واعتماد قراءة حفص عن عاصم (كونها الأكثر شيوعًا في العالم الإسلامي اليوم ) واختيار مصحف المدينة النبوية كأساس لهذا الإدخال . واستنادًا لذلك اختيرت فواصل الآيات وعلامات الوقف والتجويد المستعملة في هذا المصحف ابتداءًا .

كان من الضروري في البداية الإجابة على سؤال اختلف فيه الفقهاء الأقدمون كثيرًا وهو هل البسملة آية من الفاتحة ؟ أم هي آية من كل سورة عدا سورة التوبة ؟ أم هي ليست آية من أية سورة ، بل هي بعض آية من سورة النمل ؟ . ويمكن الرجوع إلى تفاصيل هذا الخلاف في كتب التفسير والذي فصله كثير من المفسرين في بداية تفسير سورة الفاتحة ( أنظر تفسير ابن كثير(6) وتفسير القرطبي(7) على سبيل المثال ) .

والذي اعتمدناه في المعجم المفهرس هذا هو اعتبار البسملة أول آية من القرآن الكريم ( أي أول آية من سورة الفاتحة ) دون بقية السور.  ونحن لا نقصد بذلك أخذ موقف منحازٍ ضد من خالف ذلك من الفقهاء الأجلاء ، ولكن كان لابد من اختيار رأي واحد وقد وجدنا أن إثبات البسملة لمرة واحدة في أول سورة الفاتحة ( في هذا المعجم ) هو أفضل من تكرارها في كل سورة ( عدا سورة التوبة ) حيث أن ذلك سيطيل من تكرار لا داعي له في هذا المعجم. كما أن عدم إثباتها في الفاتحة يعني أن لا تذكر البسملة إلا مرة واحدة كجزء من آية في سورة النمل وهي بذلك لا تكون مكررة ومن ثم لا ترد في هذا المعجم بتاتًا , لأن المعجم مختص بالتكرار لأكثر من مرة وليس بورود النصوص مرة واحدة . ولهذا فإن من الواجب الاعتذار ممن يرى أن البسملة آية من كل سورة ( عدا سورة براءة ) أو ممن يعتبرها بعض آية من سورة النمل فحسب.  ومن نحن حتى نعطي رأيًا منحازًا إلى أحد هذه الآراء التي اختلف فيها أئمة أجلاء رضوان الله تعالى عليهم وأرضاهم ، وكان لكل واحد منهم دليله وله أجران إن أصاب وأجر إن أخطأ.

 

3- المعالجة الأولية للنص القرآني

مما تقدم كان لا بد من اعتماد النص القرآني آية آية . أن كل آية تعتبر قيدًا مستقلاً ( record ) أو سطرًا كاملاً . ولا يفصل بين كلمة من كلمات الآية سوى فراغ واحد . أما بين آية وأخرى فلا داعي لأية فاصلة لأن الانتقال من سطر لآخر إشارة إلى انتهاء الآية والبدء بآية جديدة وقد أدى ذلك إلى انتفاء الحاجة إلى ترقيم الآيات الواحدة تلو الأخرى أو وضع الترقيم بين آيتين . فالمعالجة الحاسوبية عند البرمجة يمكن أن تقوم بالعد والترقيم دون الحاجة إلى إثبات ذلك في النص . وعلى هذا فقد احتوى النص على ( 6236 ) سطر أو قيد .

أما الفواصل بين سورة وأخرى فكان لا بد من اختيار رمز يشير إلى ابتداء سورة جديدة . وقد اختيرت العلامة # كرمز لبداية سورة جديدة .

أما علامات الوقف والتجويد فقد اختير لكل علامة رمز من الرموز المستعملة في الحاسوب مثل $ & % + - وغيرها . كما اختيرت علامة خاصة لمواقع سجود التلاوة . وقد لوحظ أن بعض علامات الوقف والتجويد تقع بين كلمتين من كلمات المصحف وبعضها يقع في آخر الكلمة بينما وقع البعض الآخر في وسط الكلمة . وهذا جعل الكلمات بعضها غريبًا في شكله , نظرًا لأن الحروف تختلف في هيأتها إن وقعت في وسط الكلمة أو أولها أو آخرها , إذا ما أدخل وسط الكلمة رمز من هذه الرموز . وعلى أية حال سوف يتبين فيما بعد أن المعالجة الأخيرة كانت بحذف كل هذه الرموز عند استخلاص الكلمات كلمة كلمة , وذلك لسببين : السبب الأول صعوبة استخدام هذه العلامات في برامج معالجة النصوص حيث يستدعي ذلك استخدام بنط ( ترميز للحروف ) (font) خاص بالمصحف لا يتوفر عند الغالبية العظمى من مستخدمي الحاسوب . والسبب الثاني والأهم أن الكلمة القرآنية غالبًا تنطق بمعزل عن علامات الوقف والتجويد ( إلا إذا كانت العلامة وسط الكلمة وهي نادرة ) , والتي غالبًا ما تكون بين الكلمات المتعاقبة أو نهاية الجمل أو الآيات . أما الأمر المهم الآخر في هذا المضمار فهو الألف الخنجرية التي توضع فوق بعض الحروف ولا تكتب ألفًا مثل "الرحمن"  و "هذا" . وقد تم استخدام علامة التعجب ! لتنوب محل هذه الألف . وسيتبين فيما بعد أن هذه الألف كذلك قد تم الاستعاضة عنها بالألف الممدودة تارةً في مثل كلمة "العالمين" وبالفتحة تارةً أخرى في مثل كلمة "الرحمن"  و "هذا" وذلك تماشيًا مع الرسم الإملائي الشائع اليوم بكتابة هذه الكلمات خلافًا للقاعدة بدون ألف ممدودة . وكان هذا الحذف لضرورات الطباعة باستعمال معالج نصوص عادي . هذا مع الإشارة أن هذه المعالجة لم تتم في هذه المرحلة ولكن في مرحلة لاحقة كما سيتبين في ما بعد . وتجدر الإشارة إلى أن المعالجات الحاسوبية الحديثة تمكّن من رسم رموز خاصة كرسم وليس كحرف فتظهر صورة الرمز كما هو مطلوب ولكن هذه التقنية لم تستعمل في هذا المعجم.

وعلى هذا فإن النص القرآني في هذه المرحلة كان نصًا استبعدت منه علامات الوقف والتجويد ومواقع سجود التلاوة . ولكن أبقيت فيه علامات الألف الخنجرية . وعلى هذا فإن النص في هذه المرحلة هو نص بالرسم العثماني خال من العلامات ( عدا الألف الخنجرية وهمزة الوصل التي استعملت بدلها علامة الاستفهام ؟ ) وليس نصًا مطابقًا للنطق ، حيث أن هناك عددًا من الكلمات القرآنية التي لا يمكن نطقها بشكل صحيح إلا بمساعدة العلامات المثبتة في المصاحف حاليًا والتي استثنيت في هذه المرحلة من المعالجة . وقد حذفت العلامات المشار إليها باستخدام أحد برامج التحرير ( edit )(8)

4- قاعدة البيانات الرئيسة

بعد الانتهاء من إعداد النص كونت قاعدة البيانات الرئيسة بشكل تدريجي . فأول خطوة كانت هي عبارة عن تحويل النص السالف ذكره إلى قاعدة بيانات بعمود واحد هو الكلمات القرآنية كما انتهى وصفها في ما سبق . وقد وضعت في هذا العمود علامة # أخذت موضع كلمة لتشير إلى بدء سورة جديدة وكذلك علامة @ لتشير إلى بدء آية جديدة . وبذلك احتوت قاعدة البيانات هذه على ( 83829 ) قيدًا وهي تحوي 114 علامة # لبداية السور و ( 6236 ) علامة @ لبداية الآيات حيث أن عدد كلمات المصحف بالرسم المشار إليه في بدء هذا البحث هو (77479) منها 4 كلمات هي كلمات البسملة في بدء سورة الفاتحة . ومن هذه الأرقام يمكن حساب عدد الكلمات وفق أي رأي فقهي آخر ( المقصود من اعتبر البسملة آية من كل سورة عدا سورة التوبة أو من لم يعتبرها آية من سورة الفاتحة ولا من غيرها من السور) .

لقد استخدم برنامج إدارة قواعد البيانات المسمى ( فوكس برو Foxpro )(9) للمعالجة . وبالطبع كان بالإمكان استخدام أي برنامج إدارة قواعد بيانات حديث آخر . فالمعالجات التي سيتم وصفها معالجات بسيطة بإمكان أي برنامج إدارة قواعد بيانات حديث القيام بها بسهولة تامة . ويمكن نقل البيانات من قاعدة البيانات هذه الى أية قاعدة بيانات مثل قاعدة بيانات أوراكل Oracle والتي تحوي إمكانيات واسعة وقابلة لإستعمال امتيازات الذكاء الإصطناعي المفيدة في معالجات لاحقة.

أما الخطوات التالية لتوسيع قاعدة البيانات هذه فقد أجريت على النحو الآتي :

4-1  استخلصت الكلمات القرآنية بشكل غير متكرر من قاعدة البيانات الرئيسة , فكان عدد الكلمات (18841) كلمةً قرآنيةً .

4-2  بعد فصل الكلمات المحتوية على الألف الخنجرية استبدلت الألف الخنجرية ( ودققت يدويًا كلمةً كلمةً ) بإثبات الألف كما في كلمة "العالمين" أو بإثبات الفتحة كما في كلمة "الرحمن" ثم أعيد تكوين قاعدة البيانات الرئيسة بعمودين الأول بالكلمات بإثبات الألف الخنجرية والثاني بعد تحويرها وبذلك أصبح العمود الثاني هو الأساس الذي اعتمد في الخطوات التالية من المعالجات. كما حذفت همزة الوصل كليًا،  وهذه الخطوة كانت ضرورية في هذه المرحلة . أما في المستقبل , وإذا ما انتشر بنط يحوي الألف الخنجرية وهمزة الوصل انتشارًا واسعًا فإنها تصبح غير ضرورية بل ويجب الاستغناء عنها والرجوع إلى الرسم العثماني الأصيل لكافة الكلمات القرآنية التي تحوي الألف الخنجرية وهمزة الوصل. ( هذا مع الإشارة إلى وجود بعض البنطات التي تحوي ألفًا خنجرية  وهمزة الوصل , ولكنها خاصة وغير متوافقة مع كثير من برامج معالجة النصوص الشائعة ) .

4-3 استنادًا للخطوة السابقة تكونت لدينا قاعدة بيانات رئيسة تحوي النص القرآني كاملاً بالرسم العثماني في العمود الأول وبالرسم المحوّر عن الرسم العثماني الذي استبدلت فيه الألف الخنجرية وهمزة الوصل كما سبق ذكره .

أما قاعدة البيانات الثانية فتحوي عمودين أيضًا وتحوي الكلمات القرآنية والتي عددها (18841).

4-4 وسِّعت قاعدة البيانات الثانية بخطوات متعاقبة , وذلك بحذف الشدة على الحرف الأول لبعض الكلمات نتيجة وقوعها بعد كلمة محتوية على تنوين , مثل تشديد اللام في ( هدىًَ لِّلمتقين ) وتشديد الميم في ( ريب مّما ).  وقد تأتي هذه الشدة حتى في بداية آية إن كان في نهاية الآية التي قبلها تنوين , مثل قوله تعالى ( عدواً مبيناً * رَّبكم أعلم ). وتنحصر هذه الحالات إن كانت بداية الكلمة لامًا أو ميمًا أو راءًا أو ياءً أو نونًا أو واوًا وكانت الكلمة التي تسبقها منونة , كما في الأمثلة السالفة . ولهذا حذفت هذه الشدة على مرحلتين. المرحلة الأولى بواسطة برنامج يدقق إن كانت هناك شدة على الحرف الأول من كل كلمة تبتدئ بهذه الحروف, فيقوم بفصلها. والمرحلة الثانية كانت بأن تدقق يدويًا ومن ثم تحذف . وهناك مواضع أخرى للشدّة التي كان يجب أن تحذف من  بداية الكلمة مثل " لهم مّا يشاؤون " , نتيجة إلتقاء ميمين في كلمتين متعاقبتين . كما عولجت مشكلة تشكيل اللام ألف . وتجدر الإشارة هنا إلى أن معالجات النصوص الشائعة تكتب اللام إلف بشكل غريب إن كانت اللام مشكولة أو عليها شدة ( تكتب "لـَّا" أو "لـَا" وليس "لا" ). ولذلك استعيض عن تشكيل اللام بتأخير الفتحة إلى ما بعد الألف, بحيث تصبح "لاَ" . وهذا خطأ كان لا بدّ من القبول به في هذه المرحلة . وبالطبع فإن المشكلة تزيد سوءًا إذا كانت الألف بعد اللام هي همزة مثل "لَأنتم" حيث كتبت "لأَنتم" أو" لَإلى الله" حيث كتبت "لإِلى الله".  وقد حذفت الحركة على اللام في مثل هذه الحالات . وقد يلتقي اللام ألف والشدّة على اللام نتيجة تنوين الكلمة السابقة لها , وبذلك تجتمع المسألتان أعلاه في موضع واحد .

 وهكذا أضيف عمود جديد لكل من قاعدتي البيانات بحيث يحوي الكلمات التي حذفت منها الشدة في بدء الكلمة ( ومعالجة اللام ألف )  ليصبح عمودًا ثالثًا .

4-5 الخطوة التي تلت ذلك كانت بحذف تشكيل الآخر لكل الكلمات مع الاحتفاظ بالأصل أيضًا . أي إضافة عمود جديد في قاعدة البيانات الأساس , وكذلك قاعدة بيانات الكلمات ( قاعدة البيانات الثانية ) بحيث يكون هناك حقل للكلمة المشكولة الآخر وآخر لغير مشكولة الآخر . وعلى ذلك فعلامة الإعراب في نهاية الكلمة أو الحركة الناجمة عن حركة منقلبة نتيجة التقاء الساكنين مثل "قدِ افترينا"  و" سأصرف عن آياتيَ الذين " ، كل تلك الحركات حذفت في هذا العمود . وستتبين فائدة ذلك في مرحلة لاحقة ، وبذا أصبح عدد الأعمدة أربعًا .

4-6  كان لا بد في هذه المرحلة من معالجة تنوين الفتح . فالألف المثبتة في نهاية الكلمة التي لحقها تنوين الفتح كان لا بد من حذفها مع التنوين الذي يعقبها والفتحة التي تسبقها . فمثلاً كلمة "غفورًا" تصبح "غفور" لكي تتساوى مع مثيلاتها التي كان فيها تنوين كسر أو تنوين ضم ثم حذفا . أما إذا كان الحرف الأخير من الكلمة المنونة تنوين فتح هو ألف مقصورة مثل "هدىً" فقد أبقيت الألف المقصورة هنا وحذف تنوين الفتح لوحده .

يلاحظ أن هناك كلمات مكتوبة بأشكال مختلفة في الرسم العثماني , مثل كتابة التاء المربوطة أحيانا بالتاء الطويلة أو حذف ألف واو الجماعة في كلمات أخرى . وفي مثل هذه الأحوال تكون الكلمة المكتوبة بأشكال مختلفة عبارة عن كلمات مختلفة . فكلمة ( رحمت ) هي غير ( رحمة ) . كما أن هناك بعض الألفاظ المندمجة أحيانا ومنفصلة أحيانا . فكلمة ( أمَّن ) هي كلمة واحدة فإذا ما كتبت بشكل " أم من "  كانت كلمتين مستقلتين . ولهذا كان التقيد بشكل الكتابة من هذه النواحي تامًا في هذا العمود.

4-7  بدئ بمعالجة اللواصق الأولية أي الأحرف الملحقة بالكلمة من أولها مثل السين المستقبلية وحرفي العطف ( الواو والفاء ) وحروف الجر ( اللام والباء والكاف ) وهمزة الاستفهام وألف لام التعريف . خذ مثلاً كلمة " أفبالباطل " تحتوي على همزة استفهام وفاء العطف وباء ( حرف جر ) وألف لام التعريف , وبذلك تصبح الكلمة بعد حذف هذه اللواصق من أولها ( باطل ) . وقد أضيف عمود خامس للكلمات بعد حذف اللواصق الأولية منها ويلاحظ أنه كلما حذف من الكلمة جزء ( الشدة على أول حرف والتشكيل في آخر الكلمة واللواصق في أولها ) كلما زاد عدد الكلمات المتطابقة , أي أن جدول الكلمات الفريدة يتقلص .

ويلاحظ أن الكلمات المحتوية على ألف لام التعريف وأول حرف فيها هو أحد الحروف الشمسية ( وهي ت ث د ذ ر ز س ش ص ض ط ظ ل ن )، فإن هذا الحرف يحوي شدة يجب حذفها . وقد أجري ذلك بواسطة برنامج خاص كتب لهذا الغرض.

ففي حين كانت الكلمات الأصلية بالرسم العثماني ( 18841 ) كلمة أصبحت عند كتابتها بالرسم العادي ( 18232) ثم عند حذف الشدة الأولية ( 17884 ) كلمة . وعند حذف التشكيل في آخر الكلمة ( 15263 ) كلمة. وعند حذف اللواصق الأولية ( 11881 ) كلمة . أنظر الجدول (1).

4-8  كانت هذه العمليات مفيدة في العثور على بعض الأخطاء الإملائية لبعض الكلمات التي لم يعثر عليها أثناء التدقيق . فالعثور على كلمات ذات تشكيل غير معقول أو غريب على النص القرآني ، يمكن ملاحظته بسهولة عندما تعزل تلك الكلمة في جدول كهذا عند مراجعة سلسلة من الكلمات القرآنية لمن يكثر من تلاوة القرآن ، وبذلك أمكن تصحيح بعض الأخطاء نتيجة هذه المعالجات .

4-9  الخطوة التالية كانت حذف التشكيل كليًا للكلمة المحذوف منها اللواصق الأولية . ولكن في هذه المرحلة ظهر هناك بعض الخلط غير المقصود بين بعض الكلمات ، فكلمات " مِن "  و" مَن " و" مَنَّ " هي كلمات مختلفة . كانت تظهر كذلك عندما كانت مشكولة . أما عند حذف التشكيل كليًا أصبحت بشكل واحد هو من . لذلك ولغرض التفريق بينها أضيفت مَدّة لأحدها بحيث أصبحت إحداها " من " والأخرى " مـن " والثالثة أبقيت الشدة فيها " منّ ". وبذلك أمكن التمييز بينها . وقد أجري ذلك كله بواسطة محرر نصوص مع برنامج يقوم بفرزها بحيث أشِّرت كل الكلمات التي اختلفت فيها الكلمة المشكولة عن غير المشكولة , فعولجت بعد فرزها بواسطة محرر النصوص يدويًا ثم أعيد وضع الكلمات في عمود خاص جديد في قاعدة البيانات الرئيسة وفي قاعدة البيانات الثانوية .

لاحظ أن حلقة الارتباط بين قاعدتي البيانات كان وفق الكلمة كاملة بالرسم العثماني .

4-10 حذف الضمائر التي تقع في نهاية الكلمة والإبقاء على جذع الكلمة هو الخطوة التالية . في هذه الحالة كان من الضروري إعادة بعض القوام للكلمة خاصة في الكلمات المعتلة. وقد تم استخلاص هذا الجذع مشكولاً . أي أن ذلك أجري عقب الخطوة 4-8 أعلاه .

4-11  بعد الوصول إلى كلمة غير مشكولة في الخطوة 4-9 انتقل العمل لاستخلاص الفعل المزيد من هذه الكلمات . وهذا الفعل يجمع الكلمات ذات المعنى القريب فكلمات : استقيموا ، استقاموا ، استقم ، كلها تنتمي إلى الفعل الثلاثي المزيد : استقام . وكلمات أقاموا ، أقم ، تعود إلى الفعل الثلاثي المزيد أقام . بينما كلمات : قام ، يقوم ، يقومون ، تعود إلى الفعل الثلاثي المجرد قام . وبالطبع كان هناك بعض المعالجات اللازمة للأفعال المقصورة والمنقوصة والمثال مهما كانت الضمائر المتصلة بالفعل أو صيغة الفعل , لأن كتابة الفعل الذي تنتمي إليه هذه الكلمات يجب أن يكتب بشكل واحد للكلمات المنتمية إلى الفعل نفسه .

4-12 هناك بعض الكلمات القرآنية التي لا تنتمي إلى فعل معين مثل أسماء الملائكة جبريل وميكال وأسماء الأنبياء مثل عيسى وموسى ونوح وآدم وأسماء المدن والأقاليم مثل مكة ومصر ويثرب وأسماء الحيوانات مثل الفيل والهدهد . كل تلك الأسماء وضع بمحل الفعل الذي تعود له الاسم نفسه وكذلك الحال بالنسبة لحروف النفي وحروف الاستفهام ولحروف الجر أو النصب أو الأسماء الموصولة أو أسماء الإشارة .

ولغرض التمييز بين هذه وتلك صنفت الكلمات القرآنية إلى الأصناف الآتية وأضيف حقل يبين نوعية الكلمة ومن هذه الرموز :

(0) الكلمات التي لها جذر ثلاثي      (1) أسماء أعلام            (2) كلمات ذات جذر ربأعي

(3) كلمات مبنية ليس لها جذر        (4) فواتح السور           (5) حروف الجر والنفي

(7) للرموز # و @

4-13 آخر عمود يستخلص في قاعدة البيانات هذه ( الرئيسة والثانوية ) هو جذر الكلمة . فجذور كلمات : يعلمون ، سيعلمون ، عالمون ، العلماء ، علام ، عليم ، علَّم ، معلَّم . وغيرها كلها جذورها "علم"  ، والأفعال المزيدة استقام وأقام وقام كلها تعود إلى جذر" قوم " .

إن الرجوع إلى جذور الكلمات أجري كلمة كلمة بعد استخلاص جذع الكلمة وتبويبها ( حذف المكرر ) ثم إدخال الجذر يدويًا بالرجوع إلى الملاحظة المباشرة وإلى المعجم المفهرس لألفاظ القرآن الكريم وإلى لسان العرب لابن منظور في أحيان أخرى . وقد كان لابد من الاختيار من الحالات التي هناك اختلاف في جذور كلمة ما بين النحويين أو المفسرين . لاحظ أن كلمات معروفة قد تكون مكتوبة بأشكال مختلفة في مواقع مختلفة مثل " إبراهيم " و " إبراهم" ( كتبت هكذا أينما وردت في سورة البقرة) ، فكان لا بد من معالجتها بهذه الطريقة أيضًا. لقد استخدم حقل جذع الكلمة لربط كلمات متقاربة مع بعضها مثل "أن" و"إن" أو "لم" و"لن" و"لا"  فهذه الكلمات وضع لها في حقل النواة الكلمة نفسها (أختير أحدها) , لكي تبقى في المعجم مجتمعة مع بعضها وكأنها من أصل واحد.

4-14 أضيف إلى قاعدة البيانات الرئيسة عمود يبين الرقم التسلسلي للكلمة ضمن الآية وذلك لمعرفة موقعها ضمن الآية الواحدة . فهناك بعض الآيات التي تتكرر فيها كلمة معينة ضمن الآية أكثر من مرة . فعند الرجوع إلى الكلمة كان من الضروري معرفة أي من هذه الكلمات هو المعني . وقد وصل عدد الكلمات المختلفة في حقل الجذور 1768 كلمة ( جذرًا أو كلمة لا جذر لها ).

4-15 بالاستناد إلى قاعدة البيانات الثانوية كتب برنامج يحسب مرات تكرار الكلمة ( بعد حذف الشدة في الأول والتشكيل في الآخر ) في القرآن كله وأضيف العدد إلى قاعدة البيانات نفسها وإلى قاعدة البيانات الرئيسة كعمود آخر ، كما أعيد الحساب نفسه على تكرار جذور الكلمة وأضيف كعمود آخر .

4-16 ويشار هنا إلى أن هناك بعض الكلمات التي كانت تستدعي معالجة أو وضعًا خاصًا لا مجال لتفصيلها هنا مثل " أمَّن " والتي تتكون من " أم " و " من " وكلمة " فمال " والتي تتكون من " فما " ومن الحرف "لـ " وكلمة " يبنؤم " والتي تتكون من " يا " و " ابن " و " أمي " .

5-  قواعد بيانات أخرى

بين الجدول الآتي تركيب قاعدة البيانات الأساسية مع شرح عن مكونات كل حقل فيها:

إسم الحقل

نوع الحقل

عرض الحقل

الشرح

Oth

حرفي

20

الكلمة بالرسم العثماني

Word

حرفي

20

الكلمة بالرسم الإملائي

No-sh

حرفي

20

الكلمة محذوف منها الشدة الأولية

No-sh-e

حرفي

20

الكلمة محذوف منها الشدة الأولية وتشكيل الآخر

No-bg-e

حرفي

15

الكلمة محذوف منها اللواصق الأولية وتشكيل الآخر

Nucl

حرفي

10

نواة الكلمة

Verb+

حرفي

10

الفعل المزيد

Verb

حرفي

10

الفعل المجرد

Root

حرفي

10

جذر الكلمة

Type

رقمي

1

رمز يبين نوع الكلمة

Num-v

رقمي

2

الرقم التسلسلي للكلمة ضمن الآية

Rep

رقمي

3

عدد مرات تكرار الكلمة في المصحف

Root-rep

رقمي

4

عدد مرات تكرار جذر الكلمة في المصحف

كان هناك حاجة إلى قواعد بيانات أخرى مثل قاعدة بيانات أسماء السور : وهي تحوي رقم السورة واسم السورة.

 

6- برامج إعداد العبارات القرآنية

من قاعدة البيانات الرئيسة التي احتوت على الأعمدة المبينة أعلاه , حولت هذه المعلومات إلى ملفات مستقلة ( كل ملف يحوي عمودًا ) , وذلك لغرض استخدامها في البرنامج الذي سيوصف أدناه .

إن الهدف من هذا البرنامج هو استعمال البيانات المبينة أعلاه في تكوين العبارات (التراكيب) القرآنية المطلوبة وفق هدف المعجم . فالمطلوب استخلاص العبارات المتشابهة لفظًا في القرآن كله. والمقصود بالتشابه اللفظي هو احتواؤها على الجذور نفسها بشكل متسلسل بالإضافة إلى تجميع العبارات المتطابقة أولاً ثم المتشابهة بالكلمات مع بعضها ثانيا . وسنأتي على تفاصيل أخرى كان لابد من مراعاتها أثناء المضي نحو هذا الهدف .

إن العبارات المطلوب البحث عنها لا تنحصر في آية واحدة . لذلك فالفاصل بين آية وأخرى يجب تلافيه والبحث عن الكلمات ضمن سلسلة الكلمات , سواء امتدت هذه السلسلة ضمن آية واحدة أو عدة آيات . فالآيات 5-9 من سورة المؤمنون تتطابق مع الآيات 29-33 من سورة المعارج مثلاً.

أما الانتقال بين سورة وأخرى فقد اعتبر حدًا فاصلاً أي لا يؤخذ التكرار أو التشابه عبر سورتين متتاليتين .

مما تقدم , وبأخذ بعين الاعتبار مرات تكرار جذور الكلمات , فإن الكلمات التي لا يرد جذرها إلا مرة واحدة فقط في القرآن كله تعتبر فاصلاً بين السلسلة من الكلمات التي ينبغي البحث عن تشابهها , لأن ورودها مرة واحدة يعني عدم تكرار الجذور في كلمات قاعدة البيانات الرئيسة الذي ذكر فيما سبق . لقد وجد بالاستقراء أن أطول عبارتين قرآنيتين بينهما تشابه هو الآيات المذكورة أعلاه 5-9 المؤمنون و 29-33 المعارج واللتان  تحوي كل منهما 26 كلمة . لذلك فقد ابتدئ بطول عبارات لا يزيد عن 30 كلمة وقد وجد فعلاً عدم وجود عبارات ذات تشابه يزيد طولها عن 26 كلمة . وبدءًا من ذلك ابتدئ بكتابة البرامج كالآتي :

6-1 كتب برنامج يجزئ المصحف إلى عبارات لا يزيد طولها عن 30 كلمة.  يبتدئ البرنامج من بداية السورة وينتهي في نهاية السورة أو عندما يلاقي كلمة جذرها لم يرد في المصحف سوى مرة واحدة . وقد استعملت الملفات التي تحوي البيانات أعلاه بحيث وضعت علامة (*)  بين كلمة وأخرى ( بدل الفراغ ) حتى تظهر العبارة وكأنها نص مستمر . كما أجريت العملية نفسها على الملفات الأخرى المتعلقة بالكلمات بعد حذف الشدة الأولية أو تشكيل الآخر .. الخ وأجري ذلك حتى على الجذور، فيما استثني النص بالرسم العثماني في هذه المرحلة وما بعدها رغم أنه بالإمكان إضافته متى اعتبر ذلك ممكن المعالجة بمعالجات النصوص الشائعة .

 أما الحد الأدنى لطول العبارات المستخلصة فهو كلمتان .

وقد أعطي لهذه العبارات رقم تسلسلي يميزه عما سواه وحدد طولها بالكلمات ورقم الكلمة التسلسلي بالمصحف الذي تبتدئ به العبارات مع المعلومات الأخرى المتعلقة بها والتي ذكرت أعلاه في قاعدة البيانات هذه .

سلسلت البيانات في قاعدة البيانات هذه كما يأتي :

أ‌-       بحسب طول النص فيها مقاسًا بعدد الكلمات الذي تحويه .

ب‌-  بحسب النص المحتوي على جذور الكلمات هجائيًا .

ج‌-    بحسب النص المحتوي على الفعل الثلاثي المزيد هجائيًا .

د‌-      بحسب النص المحتوي على نواة من الكلمة هجائيًا .

هـ- بحسب النص المحتوي على الكلمات المحذوف منها اللواصق الأولية وتشكيل الآخر هجائيًا .

و‌-     بحسب النص المحتوي على الكلمات المحذوف منها شدة الحرف الأول وتشكيل الآخر هجائيًا .

ز‌-     بحسب النص المحتوي على الكلمات المحذوف منها شدة الحرف الأول هجائيًا .

ج‌-    بحسب النص المحتوي على الكلمات الأصلية هجائيًا .

ط‌-    بحسب تسلسل الكلمة الأولى في النص في المصحف .

6-2 بعد الانتهاء من عملية التسلسل هذه نقلت المعلومات للنصوص التي تحتوي 30 كلمة إلى ملفات لكي يقوم برنامج خاص بمقارنتها مع بعضها البعض ( كل نص مع الذي سبقه ) فلم يجد البرنامج أي نصين متعاقبين متطابقين ومن هذا استنتج أنه ليس هناك تشابه في القرآن لنص يحوي 30  كلمة مع نص آخر .

6-3 كتب برنامج لتجزئة كل نص يحوي 30 كلمة إلى نصين يحوي كل منهما 29 كلمة أي أن النص جزئ إلى النص الأول الجديد من الكلمة 1 إلى الكلمة 29 والنص الثاني من الكلمة 2 إلى الكلمة 30 .

وحذفت النصوص المحتوية على 30 كلمة من قاعدة بيانات العبارات الرئيسة وأضيف لها النصوص الجديدة المحتوية على 29 كلمة والمأخوذة من نصوص الـ 30 كلمة ثم أعيدت عملية التسلسل كما ورد في (6-1) أعلاه بحسب النسق الذي شرح في الفقرة أعلاه .

6-4 نقلت المعلومات للنصوص التي تحتوي 29 كلمة إلى ملفات واستعمل البرنامج نفسه الذي ذكر في الفقرة (6-2) أعلاه لكي يستنتج من التشابه إن وجد بين نصوص طولها 29 كلمة .

6-5 أعيدت الفقرات 6-3 و 6-4 بتجزئة النصوص التي طولها 29 كلمة إلى نصين بطول 28 كلمة وهكذا .

6-6 أعيدت العمليات المشروحة في الفقرتين 6-3 و 6-4 تنازليًا بتقليص طول النص من 28 إلى 27 وهكذا . وواضح أن حجم البيانات في كل حالة يزيد عن الوضع الذي يسبقه بسبب تجزئة كل نص إلى نصين كلما قلّ عدد الكلمات في النص .

6-7 إذا وجد تشابه في نصين من ناحية الجذور , نقلت تلك النصوص إلى قاعدة بيانات جديدة  سميت قاعدة بيانات العبارات المتشابهة وحذفت من قاعدة بيانات العبارات الرئيسة . ثم أخذت العبارات التي فيها شبه والتي لم يوجد تشابه في النصوص فجزئت إلى عدد أدنى من عدد الكلمات , وأعيد خزنها في قاعدة بيانات العبارات الرئيسة لتعاد معالجتها مع عبارات ذات عدد أدنى من الكلمات .

هذا وأعطيت لكل عبارتين متطابقتين ( أو أكثر من عبارتين ) في نص الجذور رقم مميز جديد عند نقلها إلى قاعدة بيانات العبارات المتشابهة .

وقد طور البرنامج لكي يجري العمليات أعلاه ويعيد تغذيتها لنصوص تحوي أكثر من عدد واحد من الكلمات . وبالطبع من الناحية النظرية كان بالإمكان أن يقوم برنامج واحد بإجراء العملية كلها مهما كان طول العبارة ، لكن ضخامة البيانات ومحددات أخرى جعل الأسلوب الذي إستخدم هو الأنسب .

وبعد الوصول إلى العبارات التي تحوي كلمتين فقط وجد أن هناك الكثير من التكرار المتداخل وسبب هذا التكرار هو عدم حذف العبارات الطويلة المكررة وذلك خشية أن يتشابه جزء منها مع عبارة أخرى أقصر منها لذلك كله كان لا بد من إجراء عملية لحذف التداخل هذا .

6-8 كتب برناج لحذف التكرار المتداخل وذلك بعد إتمام قاعدة البيانات فإذا كان هناك عبارات قصيرة متطابقة تقع ضمن عبارات طويلة متطابقة وكان عدد مرات تكرار العبارة الأقصر مساو لعدد تكرار العبارة الأطول فإن العبارة الأقصر لا حاجة لها طالما أن العبارة الأطول موجودة . أما إذا كان عدد تكرار العبارة الأقصر أكثر من تكرار العبارة الأطول , فإن العبارة الأقصر يجب إبقاؤها .

ويقوم البرنامج بالتأكد من هذه الظاهرة بالتعرف على رقم كلمة بداية كل من هذه العبارات لأن العبارة الأقصر قد لا تبتدئ بالكلمة نفسها التي تبتدئ بها العبارة الأطول .

لذلك فإن الخطوة الأولى لتحقيق ذلك هو أن يعطى لكل عبارة عدد المرات التي تتكرر فيها وفق النص المكون من جذور الكلمات ثم يغذى هذا العدد إلى قاعدة البيانات للعبارات المكررة .

ثم يتم إجراء تسلسل ( sorting ) للعبارات وفق رقم الكلمة الأولى من العبارة في المصحف . ثم تغذى المعلومات إلى برنامج يقوم بالتأكد من طول كل عبارة مع العبارة الأطول منها والتي تبتدئ بالكلمة نفسها في المصحف . فإذا كانت العبارة الأقصر مكررة بعدد العبارة الأطول حذفت تلك العبارة الأقصر . أما إذا كانت العبارة الأقصر أكثر تكرارًا من العبارة الأطول أبقيت العبارة الأقصر . وتجدر الإشارة إلى أن هناك عبارات متداخلة جزئيًا أي أن العبارة الأولى تشترك مع الثانية بجزء من كل منهما فقط مثل " الحمد لله رب " و " الله رب العالمين ". ففي هذه الحالة تعتبر العبارتان مختلفتين ولا تداخل بينها.

ويجري الأمر نفسه بمقارنة العبارة الأقصر التي أول كلمة فيها تأتي بعد أول كلمة في العبارة الأطول لكن آخر كلمة فيها لا تتعدى آخر كلمة في العبارة الأطول ( حيث يثبت ذلك أن هذه العبارة الأقصر تقع ضمن العبارة الأطول ) .

6-9 العبارت المتشابهة في جذور كلماتها ( طبعًا متساوية في عدد كلماتها ) أعطيت رقمًا لكل منها مع حقل خاص يعطي رقم أول عبارة من المجموعة المتطابقة , وذلك لضمان إمكان إعادة تجميع هذه العبارات في مرحلة لاحقة إذا ما تمت بعثرتها في عملية ما .

6-10 بعد الحصول على العبارات المتشابهة في كلماتها والمتطابقة في جذورها , تتم عملية سلسلتها ( sorting ) هجائيًا وفق جذورها أي وفق النص المحتوي على الجذور أولاً ثم النصوص الأخرى بحسب التسلسل المذكور في (6-1) أعلاه . إلا أنه قبل البدء بهذا التسلسل ينبغي تجميع النصوص المتطابقة في الجذور ( رقم العبارة الأولى ) ثم العبارة ( أو العبارات ) التالية لها ثم بعد ذلك بقية فقرات التسلسل المذكورة ( أي عبارة الفعل الثلاثي المزيد ثم عبارة جذع الكلمة .. الخ ) .

6-11 في هذه المرحلة يجب إضافة اسم السورة ورقم الآية للعبارات في قاعدة البيانات للعبارات المكررة . ويجري ذلك بارتباط بين قاعدة بيانات أسماء السور( وأرقامها ) وقاعدة البيانات الرئيسة أولاً من خلال برنامج يضيف عمودًا لرقم السورة كلما زاد عدد علامات السورة بواحد (#) وكذلك يضيف عمودًا برقم الآية بحيث يزيد رقم الآية بواحد كلما مر بعلامة (@) . ثم يجري الارتباط بين قاعدتي البيانات هاتين فيترجم كل رقم سورة باسم السورة في حقل جديد .

وبهذا فإن كل كلمة في المصحف ( سبق وأن حدد لها رقم تسلسل في المصحف ) معها اسم السورة التي تعود لها ورقم الآية . ومن إجراء ارتباط بين قاعدة البيانات الرئيسة هذه مع قاعدة بيانات العبارات المكررة يمكن استنباط اسم السورة التي تعود لها العبارة وكذلك رقم الآية التي تعود لها أول كلمة وآخر كلمة في العبارة . فإن كان الرقمان متساويين فيعني ذلك أن العبارة تقع في آية واحدة . أما إذا كان الرقمان مختلفين فيعني ذلك أن العبارة تقع في آيتين متتاليتين ( أو أكثر ) , وعندها يجب إضافة الفواصل بين الآيات المتتالية في البرنامج الذي سيوصف فيما بعد . وبالطبع فإنه يمكن أن تكون هناك عبارات متطابقة في نص الجذور لكنها مختلفة في نص الكلمات بحيث يقع بعضها في آية واحدة والبعض الآخر في آيتين متتاليتين تفصلهما علامة الفاصلة بين آيتين .

6-12 يقوم البرنامج الذي يرتب النصوص بشكلها النهائي بالرجوع إلى قاعدة بيانات العبارات المكررة ( المتشابهة لفظًا ) , بالاستفادة من بعض الأعمدة ( ولا حاجة لبعضها ) . حيث تنقل العبارات المكونة للجذور والعبارات المكونة للكلمات وأسماء السور وأرقام الآيات فقط . يقوم برنامج خاص بترتيب العبارات بحيث يكتب أولاً الجذر الأول من عبارة الجذور فقط ثم نص العبارة المكونة للكلمات ( يدقق فقط إن كانت الكلمة الأولى تحوي في أول حرف فيها شدّة نتيجة التنوين في كلمة سابقة لم تظهر في النص فيحذف تلك الشدّة إن وجدت ) . أما بقية كلمات النص فتكون مشكولة مع إبقاء الشدة في أول حرف من الكلمات التالية ( عدا الأولى ) إن وجدت . ثم يكتب اسم السورة ورقم الآية بينهما علامة ( / ) . ثم ينتقل إلى العبارة التالية فإن كانت مشتركة في الجذر الأول مع العبارة الأولى ( السابقة ) أهملت كتابة الجذر وإن تطابقت في نص العبارة مع العبارة السابقة انتقل إلى تدقيق اسم السورة , فإن تطابقت أدرج رقم الآية فقط , وإن اختلفت السورة أدرج اسم السورة الجديدة ورقم الآية , وهكذا يستمر في إدراج أسماء السور والآيات فإن انتهت وقبل أن يكتب عبارة جديدة يحصي ما تجمع من عبارات لها النص نفسه فيكتب المجموع بين قوسين , ثم ينتقل إلى عبارة أخرى ليجرى عليها التدقيق والكتابة نفسها التي شرحت أعلاه .

6-13 بعد الوصول إلى الشكل النهائي للمعجم , كان لا بد من إجراء تدقيق يدوي دقيق للعبارات لوجود بعض العبارات غير المتشابهة والتي لا علاقة لبعضها بالبعض الآخر. ويعود سبب ذلك إلى تطابق الجذور مع اختلاف واضح في المعنى . فمثلا كلمتا " سماء "  و" اسم " وجد أنهما قد أدخلا للجذر نفسه " سمو " وكذلك لكلمتي "  سواء " و" استوى " الجذر " سوي " ، لذلك وجب تتبع كل عبارات ظهرت وكأنها متشابهة نتيجة هذا التشابه غير الحقيقي وحذفها .

كذلك كان لا بد من دمج العبارات المتشابهة التي تختلف فقط في أن الكلمة الأخيرة منها تختلف بالتشكيل بسكون أو عدم وجود سكون على الحرف الأخير , وذلك لأن رسم المصحف قد وضع فيه السكون على الحرف الساكن إذا التقى مع بعض الحروف ولم يوضع على البعض الآخر مثل ( عليكم بالمؤمنين ) لا وجود للسكون على الميم بينما في ( همْ كافرون ) هناك سكون على الميم وكذلك ( من أزواجكم ) وردت في سورة النحل الآية 72 وفي الشعراء 166 وفي الممتحنة الآية 11 ويعقبها حرف الباء في كل من الآيتين في النمل والشعراء بينما يعقبها حرف الهمزة في آية الممتحنة لذلك كان هناك سكون على الميم في آية الممتحنة ولم يكن هناك سكون على الميم في آيتي النحل والشعراء. ومثل هذا كان لا بد من عمله يدويًا في التدقيق الأخير ( كان بالإمكان برمجته أيضا ولكن لم يتم ذلك ) ومثل ذلك يحصل عند التقاء الساكنين في عبارة مع الكلمة التالية لها وعدم التقاء الساكنين في عبارة مشابهة لها في موضع آخر .

بالطبع فإن النصوص التي تحوي عبارات حذفت منها اللواصق الأولية أو تشكيل آخر الكلمة أو جذع الكلمة كل تلك العبارات خدمت في ترتيب النصوص بشكل خفي دون أن تظهر في النص النهائي فمثلا ً: العبارتان  " وسوف يؤتِ الله " النساء/146 وعبارة " فسوف يأتي الله " المائدة/54 ،  تشتركان في جذور الكلمات ، إلا أن لواصق الكلمة الأولى من العبارة الأولى ( وسوف ) مختلفة عن لواصق الكلمة الأولى من العبارة الثانية ( فسوف ). أي أنهما مشتركتان في ( سوف ) وكذلك الحال بالنسبة للكلمتين الثانيتين وهما "يؤت" و"يأتي"  فالسبب الذي جمع بينهما بهذا التسلسل هو عبارات الكلمات المحذوفة اللواصق أو الاشتراك في عبارات جذع الكلمة أو الفعل الثلاثي المزيد .. الخ .

كما أن التسلسل هذا قد خدم في تجميع العبارات المتقاربة مع بعضها فعبارات "الرحمنِ الرحيم"ِ و"أرحم الراحمين" و"الرحمنُ الرحيمُ" . كلها عبارات الجذور لها ( رحم رحم ) وكذلك في الفعل الثلاثي المزيد لكنها تختلف في جذع الكلمة . فالأولى "رحمن رحيم" والثانية "أرحم راحمين" والثالثة "رحمن رحيم" . لذلك اقتربت العبارة الأولى من الثالثة بينما بقيت الثانية لوحدها وهو ما يجب أن يتم .

6-14 بعد تحويل النصوص إلى معالج النصوص ( وورد - مايكروسوفت ) استعملت خاصية  " المايكرو " لبرمجة العبارات بحيث تظهر بحرف سميك بينما تبقي اسم السورة ورقم الآية بحرف عادي . وحذفت الإشارة (*) التي كانت قد أضيفت فيما سبق لكي يتماسك النص دون فراغات ووضع بدلها فراغ .

 

7- الاستفادة من قواعد البيانات بأشكال أخرى

بعد الجهد الذي بذل في إعداد البيانات الرئيسة والثانوية وقاعدة بيانات العبارات المكررة , فإن بالإمكان الإفادة منها بأشكال شتى . فقاعدة البيانات الرئيسة والثانوية يمكن إضافة الكثير إليها من تحليل حرفي للكلمات وتبويب للزوائد وإعراب للكلمات وتبويب للمعاني وغير ذلك .

كما أن قاعدة بيانات العبارات المكررة يمكن الإفادة منها لإخراج المعجم المفهرس بأشكال أخرى . وقد أخرج المعجم أولاً بشكل آخر لكن وجد أنه سيكون كبير الحجم لذلك عدِل عن ذلك الإخراج إلى الصيغة التي طبع بها مؤخرًا .

والصيغة الأخرى التي كان قد طبع فيها كمسودة كانت على النحو التالي :

7-1 كونت قاعدة بيانات للمصحف كما هو بين دفتي المصحف أي أن قاعدة البيانات تحوي اسم السورة ورقم الآية ونص الآية .

7-2 أضيف إلى قاعدة بيانات العبارات المكررة العبارات التي ترد بعد المرة الأولى . فإذا كانت هناك عبارة وردت ثلاث مرات أضيفت مرتين أخريين بحيث يرد في هاتين المرتين إشارة للرجوع إلى المرة الأولى , فعند ورود أول عبارة ( حسب ترتيب المصحف ) تورد العبارات الثلاثة ( إن كانت متطابقة أشير إلى مواضعها أي السورة ورقم الآية ) ، وإن كانت غير متطابقة أوردت النصوص المختلفة مع الإشارة إلى السورة والآية لكل منها . ثم بعد ذلك عند ورود آية في المصحف وردت فيها العبارة الثانية أو الثالثة يشار بالرجوع إلى تفاصيل العبارات المتشابهة لفظًا أو المتطابقة عند أول ورودها بذكر السورة والآية .

وعلى هذا فإن هذا الترتيب يلتزم بترتيب المصحف للعبارات وليس بالترتيب الهجائي لأول جذر من كلمات العبارات كما هو الحال في المعجم المطبوع . ولعله يكون بالإمكان إخراج المعجم وفق الترتيب المذكور هذا رغم سعة حجمه مستقبلاً إن شاء الله .

 

8- الخبرة المكتسبة من إعداد المعجم

لم تكن الخطة التي وصفناها والبرامج التي ذكرت هي أول محاولة نجحت للوصول إلى الهدف . فقد سبق ذلك جهود مضنية ومحاولات فاشلة للكثير من الخطوات أو البرامج أو تصاميم قواعد البيانات . وقد استغرقت التجربة بشكل متقطع بالإستفادة من أوقات الفراغ من العمل قرابة خمس سنوات . وكانت تسير بسرعة حينًا وببطء أحيانًا أخرى .  ومن الأخطاء التي ارتكبت في المراحل الأولى ما يأتي :

أ‌-        الأخطاء في تبويب بعض كلمات المصحف في مرحلة أولية تراكم الأخطاء بعد المعالجات الكثيرة التي تجري على النص فتتوزع الأخطاء على مواقع عديدة يكون من الصعب تصليحها يدويًا في مرحلة لاحقة . لذلك فإن بذل مزيد من الجهد في الوصول إلى دقة عالية للبيانات الأولية أمر يقلل من الجهد اليدوي لتصليح الأخطاء في مراحل لاحقة .

ب‌-      إن عدم وجود خبرة لأي عمل مشابه في ما سبق استوجب الوصول إلى كثير من الخطوات بطريقة التجربة والخطأ . وفي بعض الأحيان وبعد جهد في البرمجة أو التنسيق يتبين وجود إمكانيات قد تكون أقصر أو أدق للنتائج ولكن اكتشاف ذلك قد أتى متأخرًا .

ولقد كان الحصول على قاعدة بيانات رئيسة لكلمات القرآن الكريم بحد ذاته أمرًا غاية في الأهمية، حيث بالإمكان استعمالها في أبحاث لا حصر لها وفي حقول النحو والصرف والدلالة وغيرها .

 

9- كفاءة الأداء البرمجي المعتمد

لقد تداخل العمل البرمجي والتعامل مع قواعد البيانيات وتطويرها ,  بل ومع التعديل اليدوي أحيانًا. ويعود السبب في ذلك إلى الطبيعة الخاصة للنص القرآني . وقد وجد أنه من الصعوبة بمكان إلغاء العمل اليدوي نهائيًا إن لم يكن مستحيلاً. وقد وجت الحاجة للتعامل مع عدد من قواعد البيانات بشكل متتالي. هذا ولم يكن موضوع الوقت الذي يستغرقه البرنامج ذي بال في العمل نظرًا لأن العمل يراد له أن يجرى مرة واحدة.

هذا ويمكن تطبيق أسلوب المعالجة الذي اعتمد في هذا العمل على عمل فهارس أخرى للحديث الشريف مثلاً أو لبعض الكتب التراثية المهمة مثل دواوين الشعر أو لمقارنة أعمال أدبية بعضها مع البعض للتعرف على مدى التشابه والإقتباس فيما بينها.

كما يمكن استعمال نتائج هذا العمل في كتب تفسير القرآن حيث يلاحظ أن معظم كتب التفسير تعتمد إعطاء تفسير العبارات وليس الكلمات أو الآيات في غالب الأحوال.

 

10- المصادر

1- محمد فؤاد عبد الباقي: المعجم المفهرس لألفاظ القرآن الكريم- دار إحياء التراث العربي

2- عبد الملك الثعالبي ، الأشباه والنظائر في الألفاظ القرآنية التي ترادفت مبانيها وتنوعت معانيها – عالم الكتب – بيروت 1984

3- عبد الرحمن بن الجوزي : فنون الأفنان في عجائب القرآن

4- الكرماني ، أسرار التكرار في القرآن – الطبعة الثانية – دار الإعتصام 1976

5- إبن منظور : لسان العرب

6- عماد الدين اسماعيل بن كثير : تفسير القرآن العظيم – دار الجيل -بيروت

7- محمد بن أخمد الأنصاري القرطبي : الجامع لأحكام القرآن العظيم , دار الحديث - القاهرة

8- برامج التحرير منها برنامج Edit لشركة مايكروسوفت أو Notepad

9- عوض منصور : فوكس برو 2.5 مع النوافذ مكتبة البشائر 1994.


 

جدول رقم (1)

عدد الكلمات المختلفة لبعض الحقول

 

الحقل                                                   عدد الكلمات المختلفة

الجذور                                                           1768

الأفعال                                                           2017 

جذع الكلمة                                                      6695

الكلمة بحذف اللواصق الأولية                                11881

الكلمة بحذف الشدة على أول حرف وتشكيل الآخر        15263

الكلمة بحذف الشدة على أول حرف                          17884

الكلمة بالرسم العادي                                           18232

الكلمة بالرسم العثماني                                         18841

 

 

الشكل (1) نموذج من قاعدة البيانات الرئيسة

الرقم

الرسم العثماني

الرسم العادي

حذف الشدة

حذف الشدة وتشكيل الآخر

حذف اللواصق

نواة الكلمة

الفعل

نوع الكلمة

الجذر

1

#

#

#

#

#

#

#

7

#

2

@

@

@

@

@

@

@

7

@

3

بِسْمِ

بِسْمِ

بِسْمِ

بِسْم

اسْم

إسم

سمى

0

سمي

4

ا؟للَّهِ

اللَّهِ

اللَّهِ