تخطي إلى المحتوى الرئيسي
الرئيسيةالمشاريعمعالجة اللغة الطبيعيةنظام استخلاص الكيانات المسماة (NER)
معالجة اللغة الطبيعية
مشروع عملي احترافي

نظام استخلاص الكيانات المسماة (NER)

بناء نموذج لاستخلاص الأسماء، الأماكن، المنظمات من النصوص

متقدم
3 أسابيع
4 مهارات

مقدمة المشروع

في هذا المشروع العملي، ستتعلم كيفية بناء نموذج لاستخلاص الأسماء، الأماكن، المنظمات من النصوص. هذا المشروع مصمم خصيصاً لمستوى متقدمويستغرق تقريباً 3 أسابيع لإكماله بشكل كامل.

سنتبع منهجية CRISP-DM (Cross-Industry Standard Process for Data Mining) المعترف بها عالمياً، والتي تضمن بناء مشروع احترافي قابل للتطبيق في بيئة الإنتاج.

ماذا ستتعلم؟

📊 فهم Named Entity Recognition وتطبيقاته
🔍 استكشاف NER datasets
🧹 تحضير البيانات لـ Token Classification
⚙️ تدريب نموذج NER مخصص
✅ تقييم باستخدام Entity-level Metrics
🚀 نشر لاستخلاص المعلومات
منهجية CRISP-DM

خطوات العمل التفصيلية

اتبع هذه الخطوات الست لبناء مشروع احترافي

1
📊

Business Understanding

فهم المشكلة

تحديد الأهداف والمتطلبات من منظور الأعمال

الخطوات العملية:

استخراج معلومات من المستندات

2
🔍

Data Understanding

فهم البيانات

جمع البيانات الأولية والتعرف عليها وتحديد جودتها

الخطوات العملية:

CoNLL-2003 أو ANERcorp (عربي)

3
🧹

Data Preparation

تحضير البيانات

تنظيف وتحويل البيانات لتكون جاهزة للنمذجة

الخطوات العملية:

تحويل لـ BIO tagging format

4
⚙️

Modeling

بناء النموذج

اختيار وتطبيق تقنيات النمذجة المناسبة

الخطوات العملية:

Fine-tune BERT for Token Classification

5

Evaluation

التقييم

تقييم النموذج والتأكد من تحقيق الأهداف

الخطوات العملية:

Precision, Recall, F1 لكل كيان

6
🚀

Deployment

النشر

نشر النموذج في بيئة الإنتاج

الخطوات العملية:

تطبيق لاستخراج الكيانات من الأخبار

المصادر والأدوات

CoNLL-2003 Dataset
SpaCy NER Tutorial
BERT for Token Classification

المهارات المطلوبة

NERSpaCyBERTToken Classification

إحصائيات سريعة

المستوىمتقدم
المدة3 أسابيع
المهارات4
الخطوات6
العودة للمشاريع