طريقة استخدام Bright Data في مشروع رواق

هذا الدليل يشرح كيف نستخدم Bright Data داخل مشروع رواق لجمع مرشحات مصادر تساعد في صقل المقالات. الغرض ليس بناء سكريبر واسع، بل تشغيل بحث منظم يوسّع قائمة المصادر ثم يترك التحقق للمحرر.

القاعدة الأساسية

نتائج Bright Data ليست مراجع محققة. هي مرشحات.

لا يدخل أي مصدر في مقال بوصفه مرجعًا إلا بعد فتح النص الأصلي والتحقق من:

  • العنوان.
  • المؤلف أو الجهة.
  • تاريخ النشر.
  • نوع المصدر: مقال محكم، تقرير، صفحة منظمة، خبر، PDF، أو قاعدة بيانات.
  • الصلة المباشرة بسؤال المقال.

متى نستخدمه؟

نستخدم Bright Data عندما نحتاج إلى:

  • توسيع مصادر فكرة كتابة.
  • العثور على تقارير أممية أو حقوقية أصلية.
  • البحث عن أدبيات أكاديمية حول مفهوم معين.
  • اختبار هل الفجوة قابلة للكتابة دون مقابلات.
  • العثور على مصادر عربية أو سورية أو منظمات توثيق.

لا نستخدمه عندما نملك المصدر الأصلي بالفعل، أو عندما يكفي الرجوع إلى مقالات رواق، أو عندما يكون المطلوب تحققًا يدويًا من PDF معروف.

أوامر أساسية

فحص وجود الأداة:

command -v brightdata
brightdata --help

فحص الميزانية أو الرصيد:

brightdata budget

بحث منظم:

brightdata search '"Syrian refugees" "research fatigue"' \
  --engine google \
  --country us \
  --language en \
  --json \
  --pretty \
  -o analysis/web-sources/brightdata/example.json

استخراج صفحة بصيغة Markdown، عند الحاجة وبعد معرفة أن الصفحة تستحق الفتح:

brightdata scrape 'https://example.org/report' \
  --format markdown \
  --country us \
  -o analysis/web-sources/brightdata/scraped/example.md

سكربتات المشروع

جمع مرشحات أولية لمسودات المقالات:

export ROWAQ_ROOT="."
python3 scripts/collect_rowaq_draft_sources.py \
  --root "$ROWAQ_ROOT"

المخرج:

analysis/web-sources/brightdata/rowaq_draft_source_candidates.json

جمع مرشحات موسعة للصقل:

export ROWAQ_ROOT="."
python3 scripts/collect_rowaq_refinement_sources.py \
  --root "$ROWAQ_ROOT"

المخرج:

analysis/web-sources/brightdata/rowaq_refinement_source_candidates.json

تجربة الأوامر دون تنفيذ البحث:

export ROWAQ_ROOT="."
python3 scripts/collect_rowaq_refinement_sources.py \
  --root "$ROWAQ_ROOT" \
  --dry-run

إعادة تشغيل البحث رغم وجود ملفات سابقة:

export ROWAQ_ROOT="."
python3 scripts/collect_rowaq_refinement_sources.py \
  --root "$ROWAQ_ROOT" \
  --force

أين تحفظ النتائج؟

  • نتائج البحث الأولي: analysis/web-sources/brightdata/draft-sources/
  • نتائج البحث الموسع: analysis/web-sources/brightdata/refinement-sources/
  • ملخص المرشحات الأولية: analysis/web-sources/brightdata/rowaq_draft_source_candidates.json
  • ملخص المرشحات الموسعة: analysis/web-sources/brightdata/rowaq_refinement_source_candidates.json

كيف تدخل النتائج إلى API؟

تدخل النتائج بوصفها مرشحات تحقق في:

export ROWAQ_ROOT="."
python3 scripts/draft_rowaq_articles_with_openai.py \
  --root "$ROWAQ_ROOT"

وفي مرور الصقل:

export ROWAQ_ROOT="."
python3 scripts/refine_rowaq_article_drafts_with_openai.py \
  --root "$ROWAQ_ROOT"

قاعدة مهمة: البرومبت يمنع النموذج من التعامل مع نتائج Bright Data كمراجع نهائية.

منهجية البحث

لكل فكرة مقال، نبحث في أربع طبقات:

  1. مصطلح أكاديمي: مثل epistemic justice, knowledge production, source ecology.
  2. الحالة السورية: مثل Syria, Syrian refugees, Syrian civil society.
  3. نوع المصدر: مثل human rights report, documentation methodology, digital archive.
  4. الفاعل أو المؤسسة: مثل UN Commission of Inquiry, Syrian Archive, SNHR.

مثال:

brightdata search '"Syria" "Commission of Inquiry" documentation methodology' \
  --engine google --country us --language en --json --pretty \
  -o analysis/web-sources/brightdata/refinement-sources/source-ecology-syrian-studies/coi-methodology.json

قواعد التحقق

قبل استعمال أي نتيجة:

  • افتح الرابط.
  • احفظ العنوان الكامل.
  • احفظ الجهة الناشرة.
  • تأكد من التاريخ.
  • اقرأ الملخص أو المقدمة، لا snippet البحث فقط.
  • صنف المصدر: أكاديمي، أممي، حقوقي، قانوني، أرشيفي، صحفي، أو صفحة منظمة.
  • اكتب لماذا يصلح للمقال.
  • اكتب ما الذي لا يثبته.

ما لا نفعله

  • لا ننقل جملة من snippet.
  • لا نجعل نتيجة بحث مرجعًا في الهامش.
  • لا نستخدم Bright Data لجمع بيانات شخصية.
  • لا نتجاوز شروط مواقع حساسة بلا سبب مشروع.
  • لا نخلط بين صفحة منظمة ومقال محكم.
  • لا نوسّع المقال بمصادر كثيرة قبل تثبيت الحجة الأساسية.

قالب سجل مصدر

## Source candidate
 
- Title:
- URL:
- Publisher / author:
- Date:
- Source type:
- Found by query:
- Use if verified:
- Verification needed:
- Risk:

علاقة Bright Data بمدونة التحرير

Bright Data يوسّع مجال البحث، لكنه لا يكتب المقال ولا يحسم المرجعية. مدونة التحرير تبقى أعلى منه: المصدر المرشح لا يدخل الحجة إلا بعد تحقق، ولا يجوز أن يوسّع ادعاء المقال خارج عينة رواق دون دليل.