في هذه الدورة سوف نتعرف علي ماهو استرجاع المعلومات على أنّه عمليّة استرجاع المعلومات ذاتِ العلاقة، بناءً على استعلامٍ معيّن من قِبل مستخدمٍ ما، و إنّ ذلك يتطلّب استخلاص هذه المعلومات ذاتِ الصّلة من بياناتٍ غيرِ مُهيكلة قد تكون نصوصاً أو صوتاً أو صوراً.
وفي هذا السّياق فإنّ من أهمّ المشاكل التي تواجهها استرجاع المعلومات وبصورة خاصّة النصّيّة منها، هو أنّ الملفّاتِ المُسترجعة تعتمد صيغةَ التّطابق الفعليّ للكلمة أو الكلمات الموجودة في الاستعلام، والبحث عن نفس الكلمات في الملفّات المعيّنة، وذلك يؤدّي في أغلب الحالات إلى فقدان تلك الملفّات التي تحتوي على مصطلحاتٍ مرادفة لتلك الموجودة في الاستعلام المعيّن، والتي قد تكون أكثر فائدةً للمستخدم، ومن المُلاحظ أنّ هذه المُعضلة تظهر في أغلب أنظمة استرجاع البيانات بأغلب اللّغات وخاصّة اللّغة العربيّة.
سوف نتعلم في هذه الدورة على طريقة استخدام خوارزميّة تردّد الكلمة-تردّد المستند العكسيّ وتطبيقها على النّصوص العربيّة، والتي تعتمد على تحديد أهميّة الكلمات في كلّ النّصوص، هذا وإنّ نسبةَ ظهور تلك الكلمة هو ما يحدّد أهميّة الكلمة في النّص المعيّن، بالإضافة إلى أهميّة هذه الخوارزميّة في برامج تعلّم الآلة وذلک في عمليّات تحليل البيانات واتّخاذ القرارات، ومن السّهل تطبيقها على الدّيوان النّصيّ العربيّ مهما كبرت حجم البيانات.
سوف يكون الدارس قادرا علي التعامل مع النصوص باللغة العربية وتطبيق خوارزمية تردد المستند-تردد المستند العكسي علي أي ديوان نصي اخر .