Update note.md

This commit is contained in:
MasihMoafi 2025-05-02 10:53:16 +00:00
parent 67263c0e27
commit 677f9b28da

13
note.md
View File

@ -62,19 +62,6 @@ result = get_context("شاه عباس که بود؟", crawl_params={
└── web_results/ # پوشه نتایج خزش وب └── web_results/ # پوشه نتایج خزش وب
└── web.json # فایل ذخیره‌سازی نتایج وب └── web.json # فایل ذخیره‌سازی نتایج وب
``` ```
توضیح توابع اصلی
load_pdf: بارگذاری، پردازش و تقسیم‌بندی محتوای فایل‌های PDF.
search_duckduckgo: انجام جستجو در موتور جستجوی DuckDuckGo.
crawl_page: استخراج محتوای متنی و لینک‌های موجود در یک صفحه وب.
crawl_web: ترکیب جستجو و خزش صفحات وب برای یافتن اطلاعات مرتبط.
build_retriever: ساخت و آماده‌سازی بازیاب (Retriever) بر اساس الگوریتم BM25 برای جستجوی کلیدواژه‌ای در اسناد.
get_relevant_documents: یافتن مرتبط‌ترین اسناد موجود با پرسش کاربر.
extract_context_from_documents: استخراج متن مرتبط با پرسش از اسناد یافت‌شده.
extract_context_from_web: استخراج متن مرتبط با پرسش از نتایج خزش وب.
get_context: تابع اصلی و رابط کاربری سیستم که فرآیند جستجو در اسناد و یا خزش وب را مدیریت کرده و نتیجه نهایی را برمی‌گرداند.
نکات مهم
برای افزودن اسناد PDF جدید به سیستم، از تابع load_pdf استفاده کنید:
```python
rag = ModularRAG() rag = ModularRAG()
rag.load_pdf("path/to/your/document.pdf") rag.load_pdf("path/to/your/document.pdf")