الرئيسية المشاريع معالجة اللغة الطبيعيةنظام استخلاص الكيانات المسماة (NER)

معالجة اللغة الطبيعية

مشروع عملي احترافي

نظام استخلاص الكيانات المسماة (NER)

بناء نموذج لاستخلاص الأسماء، الأماكن، المنظمات من النصوص

متقدم

3 أسابيع

4 مهارات

مقدمة المشروع

في هذا المشروع العملي، ستتعلم كيفية بناء نموذج لاستخلاص الأسماء، الأماكن، المنظمات من النصوص. هذا المشروع مصمم خصيصاً لمستوى متقدمويستغرق تقريباً 3 أسابيع لإكماله بشكل كامل.

سنتبع منهجية CRISP-DM (Cross-Industry Standard Process for Data Mining) المعترف بها عالمياً، والتي تضمن بناء مشروع احترافي قابل للتطبيق في بيئة الإنتاج.

ماذا ستتعلم؟

📊 فهم Named Entity Recognition وتطبيقاته

🔍 استكشاف NER datasets

🧹 تحضير البيانات لـ Token Classification

⚙️ تدريب نموذج NER مخصص

✅ تقييم باستخدام Entity-level Metrics

🚀 نشر لاستخلاص المعلومات

منهجية CRISP-DM

خطوات العمل التفصيلية

اتبع هذه الخطوات الست لبناء مشروع احترافي

📊

Business Understanding

فهم المشكلة

تحديد الأهداف والمتطلبات من منظور الأعمال

الخطوات العملية:

استخراج معلومات من المستندات

🔍

Data Understanding

فهم البيانات

جمع البيانات الأولية والتعرف عليها وتحديد جودتها

الخطوات العملية:

CoNLL-2003 أو ANERcorp (عربي)

🧹

Data Preparation

تحضير البيانات

تنظيف وتحويل البيانات لتكون جاهزة للنمذجة

الخطوات العملية:

تحويل لـ BIO tagging format

⚙️

Modeling

بناء النموذج

اختيار وتطبيق تقنيات النمذجة المناسبة

الخطوات العملية:

Fine-tune BERT for Token Classification

✅

Evaluation

التقييم

تقييم النموذج والتأكد من تحقيق الأهداف

الخطوات العملية:

Precision, Recall, F1 لكل كيان

🚀

Deployment

النشر

نشر النموذج في بيئة الإنتاج

الخطوات العملية:

تطبيق لاستخراج الكيانات من الأخبار

المصادر والأدوات

CoNLL-2003 Dataset

SpaCy NER Tutorial

BERT for Token Classification

المهارات المطلوبة

NERSpaCyBERTToken Classification

إحصائيات سريعة

المستوىمتقدم

المدة3 أسابيع

المهارات4

الخطوات6

عرض على GitHub استكشف المسار الكامل

العودة للمشاريع