diff --git a/note.md b/note.md index 28543a3..5276b52 100644 --- a/note.md +++ b/note.md @@ -62,19 +62,6 @@ result = get_context("شاه عباس که بود؟", crawl_params={ └── web_results/ # پوشه نتایج خزش وب └── web.json # فایل ذخیره‌سازی نتایج وب ``` -توضیح توابع اصلی -load_pdf: بارگذاری، پردازش و تقسیم‌بندی محتوای فایل‌های PDF. -search_duckduckgo: انجام جستجو در موتور جستجوی DuckDuckGo. -crawl_page: استخراج محتوای متنی و لینک‌های موجود در یک صفحه وب. -crawl_web: ترکیب جستجو و خزش صفحات وب برای یافتن اطلاعات مرتبط. -build_retriever: ساخت و آماده‌سازی بازیاب (Retriever) بر اساس الگوریتم BM25 برای جستجوی کلیدواژه‌ای در اسناد. -get_relevant_documents: یافتن مرتبط‌ترین اسناد موجود با پرسش کاربر. -extract_context_from_documents: استخراج متن مرتبط با پرسش از اسناد یافت‌شده. -extract_context_from_web: استخراج متن مرتبط با پرسش از نتایج خزش وب. -get_context: تابع اصلی و رابط کاربری سیستم که فرآیند جستجو در اسناد و یا خزش وب را مدیریت کرده و نتیجه نهایی را برمی‌گرداند. -نکات مهم -برای افزودن اسناد PDF جدید به سیستم، از تابع load_pdf استفاده کنید: -```python rag = ModularRAG() rag.load_pdf("path/to/your/document.pdf")