Spaces:

ai-department-lpnu
/

paper-survey-agent

Sleeping

App Files Files Community

DenysKovalML commited on Dec 18, 2025

Commit

3bf7b2c

1 Parent(s): 1caea61

style: format code

Browse files

Files changed (21) hide show

.env.dist +7 -11
.gitignore +2 -0
notebooks/test_agent.ipynb +25 -43
pyproject.toml +2 -1
requirements.txt +1 -0
src/paper_survey_agent/agent.py +2 -4
src/paper_survey_agent/apis/__init__.py +1 -0
src/paper_survey_agent/apis/arxiv.py +1 -6
src/paper_survey_agent/apis/semantic_scholar.py +2 -5
src/paper_survey_agent/llm/client.py +1 -4
src/paper_survey_agent/models/__init__.py +1 -0
src/paper_survey_agent/settings.py +0 -1
src/paper_survey_agent/tools/generate_search_query/generate_search_query.py +1 -4
src/paper_survey_agent/tools/search_and_load_papers_txt/search_and_load_papers_txt.py +3 -5
src/paper_survey_agent/tools/search_and_load_papers_txt/utils/downloader.py +1 -4
src/paper_survey_agent/tools/search_and_load_papers_txt/utils/ranking.py +3 -8
src/paper_survey_agent/tools/search_and_load_papers_txt/utils/retrieval.py +5 -9
src/paper_survey_agent/tools/search_and_load_papers_txt/utils/text_extractor.py +1 -4
src/paper_survey_agent/tools/summarize_papers/summarize_papers.py +1 -4
src/paper_survey_agent/tools/synthesize_survey/synthesize_survey.py +2 -4
uv.lock +0 -0

.env.dist CHANGED Viewed

@@ -1,18 +1,14 @@
-# OpenAI API Configuration
-OPENAI_API_KEY=your-openai-api-key-here
-# Model Configuration
-MODEL_NAME=gpt-4o-mini
-TEMPERATURE=0.7
-MAX_TOKENS=4000
 # Search Configuration
-MAX_PAPERS=15
 MAX_RESULTS_PER_SOURCE=20
 SEARCH_TIMEOUT=300
 # Semantic Scholar API (optional, but recommended for higher rate limits)
 SEMANTIC_SCHOLAR_API_KEY=your-semantic-scholar-api-key-here
-# Logging
-LOG_LEVEL=INFO

+# LLM Configuration
+LLM_PROVIDER=openrouter
+LLM_API_KEY=
+LLM_MODEL=google/gemini-2.0-flash-exp:free
+LLM_TEMPERATURE=0.7
+LLM_MAX_TOKENS=4000
 # Search Configuration
+MAX_PAPERS_TO_RETURN=10
 MAX_RESULTS_PER_SOURCE=20
 SEARCH_TIMEOUT=300
 # Semantic Scholar API (optional, but recommended for higher rate limits)
 SEMANTIC_SCHOLAR_API_KEY=your-semantic-scholar-api-key-here

.gitignore CHANGED Viewed

@@ -31,6 +31,8 @@ MANIFEST
 #  before PyInstaller builds the exe, so as to inject date/other infos into it.
 *.manifest
 *.spec
 # Installer logs
 pip-log.txt

 #  before PyInstaller builds the exe, so as to inject date/other infos into it.
 *.manifest
 *.spec
+.env*
+!.env.dist
 # Installer logs
 pip-log.txt

notebooks/test_agent.ipynb CHANGED Viewed

@@ -53,14 +53,16 @@
    ],
    "source": [
     "import asyncio\n",
-    "import sys\n",
     "from pathlib import Path\n",
     "\n",
     "# Додаємо src до path\n",
-    "sys.path.insert(0, str(Path.cwd().parent / 'src'))\n",
     "\n",
-    "from paper_survey_agent.tools import retrieve_papers, rank_and_deduplicate\n",
     "from paper_survey_agent.models.paper import Paper\n",
     "\n",
     "print(\"✅ Модулі успішно імпортовано!\")"
    ]
@@ -99,11 +101,7 @@
     "query = \"transformer models\"\n",
     "print(f\"🔍 Шукаємо статті за запитом: '{query}'...\\n\")\n",
     "\n",
-    "papers = await retrieve_papers(\n",
-    "    query=query,\n",
-    "    sources=[\"arxiv\", \"semantic_scholar\"],\n",
-    "    max_results_per_source=10\n",
-    ")\n",
     "\n",
     "print(f\"\\n✅ Знайдено {len(papers)} статей\")"
    ]
@@ -209,12 +207,7 @@
    "source": [
     "print(f\"🔄 Ранжуємо {len(papers)} статей...\\n\")\n",
     "\n",
-    "ranked_papers = rank_and_deduplicate(\n",
-    "    papers=papers,\n",
-    "    topic=query,\n",
-    "    top_k=10,\n",
-    "    fuzzy_threshold=85\n",
-    ")\n",
     "\n",
     "print(f\"\\n✅ Топ-{len(ranked_papers)} найрелевантніших статей (після дедуплікації)\")"
    ]
@@ -648,22 +641,14 @@
     "query2 = \"attention mechanisms in neural networks\"\n",
     "print(f\"🔍 Шукаємо статті за запитом: '{query2}'...\\n\")\n",
     "\n",
-    "papers2 = await retrieve_papers(\n",
-    "    query=query2,\n",
-    "    sources=[\"arxiv\", \"semantic_scholar\"],\n",
-    "    max_results_per_source=8\n",
-    ")\n",
     "\n",
     "print(f\"\\n✅ Знайдено {len(papers2)} статей\")\n",
     "\n",
     "# Ранжування\n",
-    "ranked_papers2 = rank_and_deduplicate(\n",
-    "    papers=papers2,\n",
-    "    topic=query2,\n",
-    "    top_k=5\n",
-    ")\n",
     "\n",
-    "print(f\"\\n🏆 Топ-5 після ранжування:\\n\")\n",
     "for i, paper in enumerate(ranked_papers2, 1):\n",
     "    print(f\"{i}. {paper.title}\")\n",
     "    print(f\"   📅 {paper.published_date} | 📖 {paper.citations_count or 'N/A'} цитувань\")\n",
@@ -717,6 +702,7 @@
     "from collections import Counter\n",
     "from datetime import datetime\n",
     "\n",
     "print(\"📊 Статистика знайдених статей:\\n\")\n",
     "print(f\"Всього знайдено: {len(papers)}\")\n",
     "print(f\"Після дедуплікації: {len(ranked_papers)}\")\n",
@@ -724,14 +710,14 @@
     "\n",
     "# Статистика по джерелам\n",
     "sources = Counter(p.source for p in papers)\n",
-    "print(f\"\\nПо джерелам:\")\n",
     "for source, count in sources.items():\n",
     "    print(f\"  - {source}: {count}\")\n",
     "\n",
     "# Статистика по рокам\n",
     "years = [p.published_date.year for p in ranked_papers]\n",
     "year_counts = Counter(years)\n",
-    "print(f\"\\nПо рокам публікації (топ-10):\")\n",
     "for year, count in sorted(year_counts.items(), reverse=True):\n",
     "    print(f\"  - {year}: {count}\")\n",
     "\n",
@@ -745,7 +731,7 @@
     "\n",
     "# Наявність PDF\n",
     "with_pdf = sum(1 for p in ranked_papers if p.pdf_url)\n",
-    "print(f\"\\nСтатей з PDF: {with_pdf}/{len(ranked_papers)} ({with_pdf/len(ranked_papers)*100:.1f}%)\")"
    ]
   },
   {
@@ -885,39 +871,35 @@
     "test_queries = [\n",
     "    (\"machine learning\", \"Популярна тема (очікуємо 10 статей)\"),\n",
     "    (\"lemon juice\", \"Рідкісна тема (можливо менше 10)\"),\n",
-    "    (\"zzxxyywwqqppvvkkjjhhggffddssaammnnbbccll123456789\", \"Абсолютно випадковий набір (очікуємо 0 → ValueError)\")\n",
     "]\n",
     "\n",
     "for query, description in test_queries:\n",
     "    print(f\"\\n📝 Запит: '{query}'\")\n",
     "    print(f\"   Опис: {description}\")\n",
     "    print(\"-\" * 80)\n",
-    "    \n",
     "    try:\n",
-    "        papers_test = await retrieve_papers(\n",
-    "            query=query,\n",
-    "            sources=[\"arxiv\"],\n",
-    "            max_results_per_source=10\n",
-    "        )\n",
-    "        \n",
     "        found = len(papers_test)\n",
-    "        \n",
     "        if found == 10:\n",
     "            print(f\"   ✅ Знайдено {found} статей з PDF — рівно стільки скільки просили!\")\n",
     "        elif found > 0:\n",
     "            print(f\"   ⚠️  Знайдено {found} статей з PDF (менше ніж 10)\")\n",
-    "            print(f\"   💡 Система повернула все що знайшла, не викинула помилку\")\n",
-    "        \n",
     "        # Показуємо перші 2 статті якщо є\n",
     "        if found > 0:\n",
-    "            print(f\"\\n   📚 Приклади знайденого:\")\n",
     "            for i, paper in enumerate(papers_test[:2], 1):\n",
     "                print(f\"      {i}. {paper.title[:70]}...\")\n",
-    "        \n",
     "    except ValueError as e:\n",
     "        print(f\"   ❌ ValueError: {e}\")\n",
-    "        print(f\"   💡 Це означає що знайдено 0 статей з PDF — критична помилка!\")\n",
-    "    \n",
     "    print()"
    ]
   }

    ],
    "source": [
     "import asyncio\n",
     "from pathlib import Path\n",
+    "import sys\n",
+    "\n",
     "\n",
     "# Додаємо src до path\n",
+    "sys.path.insert(0, str(Path.cwd().parent / \"src\"))\n",
     "\n",
     "from paper_survey_agent.models.paper import Paper\n",
+    "from paper_survey_agent.tools import rank_and_deduplicate, retrieve_papers\n",
+    "\n",
     "\n",
     "print(\"✅ Модулі успішно імпортовано!\")"
    ]
     "query = \"transformer models\"\n",
     "print(f\"🔍 Шукаємо статті за запитом: '{query}'...\\n\")\n",
     "\n",
+    "papers = await retrieve_papers(query=query, sources=[\"arxiv\", \"semantic_scholar\"], max_results_per_source=10)\n",
     "\n",
     "print(f\"\\n✅ Знайдено {len(papers)} статей\")"
    ]
    "source": [
     "print(f\"🔄 Ранжуємо {len(papers)} статей...\\n\")\n",
     "\n",
+    "ranked_papers = rank_and_deduplicate(papers=papers, topic=query, top_k=10, fuzzy_threshold=85)\n",
     "\n",
     "print(f\"\\n✅ Топ-{len(ranked_papers)} найрелевантніших статей (після дедуплікації)\")"
    ]
     "query2 = \"attention mechanisms in neural networks\"\n",
     "print(f\"🔍 Шукаємо статті за запитом: '{query2}'...\\n\")\n",
     "\n",
+    "papers2 = await retrieve_papers(query=query2, sources=[\"arxiv\", \"semantic_scholar\"], max_results_per_source=8)\n",
     "\n",
     "print(f\"\\n✅ Знайдено {len(papers2)} статей\")\n",
     "\n",
     "# Ранжування\n",
+    "ranked_papers2 = rank_and_deduplicate(papers=papers2, topic=query2, top_k=5)\n",
     "\n",
+    "print(\"\\n🏆 Топ-5 після ранжування:\\n\")\n",
     "for i, paper in enumerate(ranked_papers2, 1):\n",
     "    print(f\"{i}. {paper.title}\")\n",
     "    print(f\"   📅 {paper.published_date} | 📖 {paper.citations_count or 'N/A'} цитувань\")\n",
     "from collections import Counter\n",
     "from datetime import datetime\n",
     "\n",
+    "\n",
     "print(\"📊 Статистика знайдених статей:\\n\")\n",
     "print(f\"Всього знайдено: {len(papers)}\")\n",
     "print(f\"Після дедуплікації: {len(ranked_papers)}\")\n",
     "\n",
     "# Статистика по джерелам\n",
     "sources = Counter(p.source for p in papers)\n",
+    "print(\"\\nПо джерелам:\")\n",
     "for source, count in sources.items():\n",
     "    print(f\"  - {source}: {count}\")\n",
     "\n",
     "# Статистика по рокам\n",
     "years = [p.published_date.year for p in ranked_papers]\n",
     "year_counts = Counter(years)\n",
+    "print(\"\\nПо рокам публікації (топ-10):\")\n",
     "for year, count in sorted(year_counts.items(), reverse=True):\n",
     "    print(f\"  - {year}: {count}\")\n",
     "\n",
     "\n",
     "# Наявність PDF\n",
     "with_pdf = sum(1 for p in ranked_papers if p.pdf_url)\n",
+    "print(f\"\\nСтатей з PDF: {with_pdf}/{len(ranked_papers)} ({with_pdf / len(ranked_papers) * 100:.1f}%)\")"
    ]
   },
   {
     "test_queries = [\n",
     "    (\"machine learning\", \"Популярна тема (очікуємо 10 статей)\"),\n",
     "    (\"lemon juice\", \"Рідкісна тема (можливо менше 10)\"),\n",
+    "    (\"zzxxyywwqqppvvkkjjhhggffddssaammnnbbccll123456789\", \"Абсолютно випадковий набір (очікуємо 0 → ValueError)\"),\n",
     "]\n",
     "\n",
     "for query, description in test_queries:\n",
     "    print(f\"\\n📝 Запит: '{query}'\")\n",
     "    print(f\"   Опис: {description}\")\n",
     "    print(\"-\" * 80)\n",
+    "\n",
     "    try:\n",
+    "        papers_test = await retrieve_papers(query=query, sources=[\"arxiv\"], max_results_per_source=10)\n",
+    "\n",
     "        found = len(papers_test)\n",
+    "\n",
     "        if found == 10:\n",
     "            print(f\"   ✅ Знайдено {found} статей з PDF — рівно стільки скільки просили!\")\n",
     "        elif found > 0:\n",
     "            print(f\"   ⚠️  Знайдено {found} статей з PDF (менше ніж 10)\")\n",
+    "            print(\"   💡 Система повернула все що знайшла, не викинула помилку\")\n",
+    "\n",
     "        # Показуємо перші 2 статті якщо є\n",
     "        if found > 0:\n",
+    "            print(\"\\n   📚 Приклади знайденого:\")\n",
     "            for i, paper in enumerate(papers_test[:2], 1):\n",
     "                print(f\"      {i}. {paper.title[:70]}...\")\n",
+    "\n",
     "    except ValueError as e:\n",
     "        print(f\"   ❌ ValueError: {e}\")\n",
+    "        print(\"   💡 Це означає що знайдено 0 статей з PDF — критична помилка!\")\n",
+    "\n",
     "    print()"
    ]
   }

pyproject.toml CHANGED Viewed

@@ -13,11 +13,12 @@ dependencies = [
     "pydantic-settings>=2.0.0",
     "python-dotenv>=1.0.0",
     "httpx>=0.25.0",
-    "gradio>=4.0.0",
     "rapidfuzz>=3.0.0",
     "tenacity>=8.0.0",
     "pymupdf>=1.26.7",
     "litellm>=1.80.10",
 ]
 [dependency-groups]

     "pydantic-settings>=2.0.0",
     "python-dotenv>=1.0.0",
     "httpx>=0.25.0",
+    "gradio==6.1.0",
     "rapidfuzz>=3.0.0",
     "tenacity>=8.0.0",
     "pymupdf>=1.26.7",
     "litellm>=1.80.10",
+    "loguru>=0.7.3",
 ]
 [dependency-groups]

requirements.txt CHANGED Viewed

@@ -7,3 +7,4 @@ python-dotenv>=1.0.0
 httpx>=0.25.0
 rapidfuzz>=3.0.0
 tenacity>=8.0.0

 httpx>=0.25.0
 rapidfuzz>=3.0.0
 tenacity>=8.0.0
+loguru>=0.7.0

src/paper_survey_agent/agent.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import asyncio
-import logging
 from typing import Optional
 from paper_survey_agent.models.paper import SummarizedPaper
 from paper_survey_agent.tools import (
     generate_search_query,
@@ -11,9 +12,6 @@ from paper_survey_agent.tools import (
 )
-logger = logging.getLogger(__name__)
 class PaperSurveyAgent:
     async def run(self, topic: str) -> tuple[list[SummarizedPaper], str] | None:
         logger.info(f" Agent started for topic: '{topic}'")

 import asyncio
 from typing import Optional
+from loguru import logger
 from paper_survey_agent.models.paper import SummarizedPaper
 from paper_survey_agent.tools import (
     generate_search_query,
 )
 class PaperSurveyAgent:
     async def run(self, topic: str) -> tuple[list[SummarizedPaper], str] | None:
         logger.info(f" Agent started for topic: '{topic}'")

src/paper_survey_agent/apis/__init__.py CHANGED Viewed

@@ -4,4 +4,5 @@ from paper_survey_agent.apis.arxiv import ArxivAPI
 from paper_survey_agent.apis.base import BaseScientificAPI
 from paper_survey_agent.apis.semantic_scholar import SemanticScholarAPI
 __all__ = ["ArxivAPI", "SemanticScholarAPI", "BaseScientificAPI"]

 from paper_survey_agent.apis.base import BaseScientificAPI
 from paper_survey_agent.apis.semantic_scholar import SemanticScholarAPI
 __all__ = ["ArxivAPI", "SemanticScholarAPI", "BaseScientificAPI"]

src/paper_survey_agent/apis/arxiv.py CHANGED Viewed

@@ -1,10 +1,8 @@
-"""arXiv API client for retrieving scientific papers."""
 from datetime import datetime
-import logging
 from typing import Optional
 import arxiv
 from tenacity import retry, stop_after_attempt, wait_exponential
 from paper_survey_agent.apis.base import BaseScientificAPI
@@ -12,9 +10,6 @@ from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 class ArxivAPI(BaseScientificAPI):
     def __init__(self, page_size: int = settings.ARXIV_PAGE_SIZE, delay_seconds: int = settings.ARXIV_DELAY_SECONDS):
         self.page_size = page_size

 from datetime import datetime
 from typing import Optional
 import arxiv
+from loguru import logger
 from tenacity import retry, stop_after_attempt, wait_exponential
 from paper_survey_agent.apis.base import BaseScientificAPI
 from paper_survey_agent.settings import settings
 class ArxivAPI(BaseScientificAPI):
     def __init__(self, page_size: int = settings.ARXIV_PAGE_SIZE, delay_seconds: int = settings.ARXIV_DELAY_SECONDS):
         self.page_size = page_size

src/paper_survey_agent/apis/semantic_scholar.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import asyncio
 from datetime import datetime
-import logging
 from typing import Optional
 import httpx
 from tenacity import retry, retry_if_exception_type, stop_after_attempt, wait_exponential
 from paper_survey_agent.apis.base import BaseScientificAPI
@@ -11,9 +11,6 @@ from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 class SemanticScholarAPI(BaseScientificAPI):
     BASE_URL = settings.SEMANTIC_SCHOLAR_API_BASE_URL
@@ -48,7 +45,7 @@ class SemanticScholarAPI(BaseScientificAPI):
             timeout=timeout,
         )
-        logger.info(f"Initialized SemanticScholarAPI " f"(authenticated: {bool(api_key)}, timeout: {timeout}s)")
     async def __aenter__(self):
         return self

 import asyncio
 from datetime import datetime
 from typing import Optional
 import httpx
+from loguru import logger
 from tenacity import retry, retry_if_exception_type, stop_after_attempt, wait_exponential
 from paper_survey_agent.apis.base import BaseScientificAPI
 from paper_survey_agent.settings import settings
 class SemanticScholarAPI(BaseScientificAPI):
     BASE_URL = settings.SEMANTIC_SCHOLAR_API_BASE_URL
             timeout=timeout,
         )
+        logger.info(f"Initialized SemanticScholarAPI (authenticated: {bool(api_key)}, timeout: {timeout}s)")
     async def __aenter__(self):
         return self

src/paper_survey_agent/llm/client.py CHANGED Viewed

@@ -1,16 +1,13 @@
-import logging
 import os
 from typing import Any
 from litellm import completion
 from tenacity import retry, stop_after_attempt, wait_exponential
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 class LLMClient:
     def __init__(self):
         self.model = settings.LLM_MODEL

 import os
 from typing import Any
 from litellm import completion
+from loguru import logger
 from tenacity import retry, stop_after_attempt, wait_exponential
 from paper_survey_agent.settings import settings
 class LLMClient:
     def __init__(self):
         self.model = settings.LLM_MODEL

src/paper_survey_agent/models/__init__.py CHANGED Viewed

@@ -2,4 +2,5 @@
 from .paper import Paper
 __all__ = ["Paper"]


2
3	from .paper import Paper
4
5	+
6	__all__ = ["Paper"]

src/paper_survey_agent/settings.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import os
 from pathlib import Path
 from pydantic_settings import BaseSettings, SettingsConfigDict



1	from pathlib import Path
2
3	from pydantic_settings import BaseSettings, SettingsConfigDict

src/paper_survey_agent/tools/generate_search_query/generate_search_query.py CHANGED Viewed

@@ -1,12 +1,9 @@
-import logging
 from paper_survey_agent.llm.client import llm_client
 from paper_survey_agent.llm.prompts import SEARCH_QUERY_REFINEMENT_SYSTEM_PROMPT
-logger = logging.getLogger(__name__)
 def generate_search_query(user_query: str) -> str:
     logger.info(f"🧠 Refining user query: '{user_query}'")

+from loguru import logger
 from paper_survey_agent.llm.client import llm_client
 from paper_survey_agent.llm.prompts import SEARCH_QUERY_REFINEMENT_SYSTEM_PROMPT
 def generate_search_query(user_query: str) -> str:
     logger.info(f"🧠 Refining user query: '{user_query}'")

src/paper_survey_agent/tools/search_and_load_papers_txt/search_and_load_papers_txt.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import asyncio
-import logging
 import math
 from paper_survey_agent.models.paper import ProcessedPaper
 from paper_survey_agent.settings import settings
 from paper_survey_agent.tools.search_and_load_papers_txt.utils.downloader import download_papers
@@ -11,9 +12,6 @@ from paper_survey_agent.tools.search_and_load_papers_txt.utils.retrieval import
 from paper_survey_agent.tools.search_and_load_papers_txt.utils.text_extractor import convert_pdfs_to_text
-logger = logging.getLogger(__name__)
 async def search_and_load_papers_txt(query: str) -> list[ProcessedPaper]:
     clear_data_directory()
@@ -45,7 +43,7 @@ async def search_and_load_papers_txt(query: str) -> list[ProcessedPaper]:
         current_index = batch_end
     if len(downloaded_pdfs) < target_count:
-        logger.warning(f"Pipeline finished with {len(downloaded_pdfs)} papers, " f"short of target {target_count}.")
     txt_paths = await convert_pdfs_to_text(downloaded_pdfs)

 import asyncio
 import math
+from loguru import logger
 from paper_survey_agent.models.paper import ProcessedPaper
 from paper_survey_agent.settings import settings
 from paper_survey_agent.tools.search_and_load_papers_txt.utils.downloader import download_papers
 from paper_survey_agent.tools.search_and_load_papers_txt.utils.text_extractor import convert_pdfs_to_text
 async def search_and_load_papers_txt(query: str) -> list[ProcessedPaper]:
     clear_data_directory()
         current_index = batch_end
     if len(downloaded_pdfs) < target_count:
+        logger.warning(f"Pipeline finished with {len(downloaded_pdfs)} papers, short of target {target_count}.")
     txt_paths = await convert_pdfs_to_text(downloaded_pdfs)

src/paper_survey_agent/tools/search_and_load_papers_txt/utils/downloader.py CHANGED Viewed

@@ -1,19 +1,16 @@
 import asyncio
-import logging
 from pathlib import Path
 import re
 from typing import Optional
 import httpx
 from tenacity import retry, retry_if_exception_type, stop_after_attempt, wait_exponential
 from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 async def download_papers(papers: list[Paper], destination_dir: str | Path | None = None) -> dict[str, Path]:
     if destination_dir is None:
         destination_dir = Path(settings.DATA_DIR) / "pdfs"

 import asyncio
 from pathlib import Path
 import re
 from typing import Optional
 import httpx
+from loguru import logger
 from tenacity import retry, retry_if_exception_type, stop_after_attempt, wait_exponential
 from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
 async def download_papers(papers: list[Paper], destination_dir: str | Path | None = None) -> dict[str, Path]:
     if destination_dir is None:
         destination_dir = Path(settings.DATA_DIR) / "pdfs"

src/paper_survey_agent/tools/search_and_load_papers_txt/utils/ranking.py CHANGED Viewed

@@ -1,18 +1,15 @@
 from collections import Counter
 from datetime import datetime
-import logging
 import re
 from typing import Optional
 from rapidfuzz import fuzz
 from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 def rank_and_deduplicate(
     papers: list[Paper],
     topic: str,
@@ -42,7 +39,7 @@ def rank_and_deduplicate(
     if scored_papers:
         logger.info(
             f"Returning top {len(top_papers)} papers. "
-            f"Score range: {scored_papers[0][1]:.3f} - {scored_papers[min(top_k-1, len(scored_papers)-1)][1]:.3f}"
         )
     return top_papers
@@ -64,9 +61,7 @@ def _deduplicate_papers(papers: list[Paper], fuzzy_threshold: int) -> list[Paper
         for seen_title, seen_paper in seen_titles:
             similarity = fuzz.ratio(normalized_title, seen_title)
             if similarity >= fuzzy_threshold:
-                logger.debug(
-                    f"Fuzzy duplicate found ({similarity}% similar): " f"'{paper.title}' ≈ '{seen_paper.title}'"
-                )
                 if paper.citations_count and not seen_paper.citations_count:
                     deduplicated.remove(seen_paper)
                     seen_ids.remove(seen_paper.id)

 from collections import Counter
 from datetime import datetime
 import re
 from typing import Optional
+from loguru import logger
 from rapidfuzz import fuzz
 from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
 def rank_and_deduplicate(
     papers: list[Paper],
     topic: str,
     if scored_papers:
         logger.info(
             f"Returning top {len(top_papers)} papers. "
+            f"Score range: {scored_papers[0][1]:.3f} - {scored_papers[min(top_k - 1, len(scored_papers) - 1)][1]:.3f}"
         )
     return top_papers
         for seen_title, seen_paper in seen_titles:
             similarity = fuzz.ratio(normalized_title, seen_title)
             if similarity >= fuzzy_threshold:
+                logger.debug(f"Fuzzy duplicate found ({similarity}% similar): '{paper.title}' ≈ '{seen_paper.title}'")
                 if paper.citations_count and not seen_paper.citations_count:
                     deduplicated.remove(seen_paper)
                     seen_ids.remove(seen_paper.id)

src/paper_survey_agent/tools/search_and_load_papers_txt/utils/retrieval.py CHANGED Viewed

@@ -1,16 +1,14 @@
 import asyncio
-import logging
 import os
 from typing import Optional
 from paper_survey_agent.apis import ArxivAPI, SemanticScholarAPI
 from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 async def retrieve_papers(
     query: str,
     sources: list[str] | None = None,
@@ -27,7 +25,7 @@ async def retrieve_papers(
         if semantic_scholar_api_key:
             logger.info("Using Semantic Scholar API key from environment")
-    logger.info(f"Retrieving papers: query='{query}', sources={sources}, " f"max_per_source={max_results_per_source}")
     tasks = []
@@ -66,9 +64,7 @@ async def retrieve_papers(
     )
     if not all_papers:
-        raise ValueError(
-            f"Failed to retrieve papers from all sources. " f"Attempted: {sources}, Failed: {failed_sources}"
-        )
     return all_papers
@@ -183,7 +179,7 @@ async def _fetch_from_semantic_scholar(
                 )
             else:
                 logger.info(
-                    f"Semantic Scholar returned {len(papers_with_pdf)} papers with PDF " f"(target: {max_results})"
                 )
             return papers_with_pdf

 import asyncio
 import os
 from typing import Optional
+from loguru import logger
 from paper_survey_agent.apis import ArxivAPI, SemanticScholarAPI
 from paper_survey_agent.models.paper import Paper
 from paper_survey_agent.settings import settings
 async def retrieve_papers(
     query: str,
     sources: list[str] | None = None,
         if semantic_scholar_api_key:
             logger.info("Using Semantic Scholar API key from environment")
+    logger.info(f"Retrieving papers: query='{query}', sources={sources}, max_per_source={max_results_per_source}")
     tasks = []
     )
     if not all_papers:
+        raise ValueError(f"Failed to retrieve papers from all sources. Attempted: {sources}, Failed: {failed_sources}")
     return all_papers
                 )
             else:
                 logger.info(
+                    f"Semantic Scholar returned {len(papers_with_pdf)} papers with PDF (target: {max_results})"
                 )
             return papers_with_pdf

src/paper_survey_agent/tools/search_and_load_papers_txt/utils/text_extractor.py CHANGED Viewed

@@ -1,16 +1,13 @@
 import asyncio
-import logging
 from pathlib import Path
 import aiofiles
 import pymupdf
 from paper_survey_agent.settings import settings
-logger = logging.getLogger(__name__)
 def extract_text_from_pdf_sync(pdf_path: Path) -> str:
     try:
         with pymupdf.open(pdf_path) as doc:

 import asyncio
 from pathlib import Path
 import aiofiles
+from loguru import logger
 import pymupdf
 from paper_survey_agent.settings import settings
 def extract_text_from_pdf_sync(pdf_path: Path) -> str:
     try:
         with pymupdf.open(pdf_path) as doc:

src/paper_survey_agent/tools/summarize_papers/summarize_papers.py CHANGED Viewed

@@ -1,18 +1,15 @@
 import asyncio
 import json
-import logging
 from typing import Any
 import aiofiles
 from paper_survey_agent.llm.client import llm_client
 from paper_survey_agent.llm.prompts import PAPER_SUMMARIZATION_SYSTEM_PROMPT
 from paper_survey_agent.models.paper import ProcessedPaper, SummarizedPaper
-logger = logging.getLogger(__name__)
 def parse_llm_json(text: str) -> dict[str, Any]:
     cleaned = text.strip()

 import asyncio
 import json
 from typing import Any
 import aiofiles
+from loguru import logger
 from paper_survey_agent.llm.client import llm_client
 from paper_survey_agent.llm.prompts import PAPER_SUMMARIZATION_SYSTEM_PROMPT
 from paper_survey_agent.models.paper import ProcessedPaper, SummarizedPaper
 def parse_llm_json(text: str) -> dict[str, Any]:
     cleaned = text.strip()

src/paper_survey_agent/tools/synthesize_survey/synthesize_survey.py CHANGED Viewed

@@ -1,14 +1,12 @@
 import asyncio
-import logging
 from paper_survey_agent.llm.client import llm_client
 from paper_survey_agent.llm.prompts import SURVEY_SYNTHESIS_SYSTEM_PROMPT
 from paper_survey_agent.models.paper import SummarizedPaper
-logger = logging.getLogger(__name__)
 def format_papers_for_synthesis(papers: list[SummarizedPaper]) -> str:
     context_parts = []

 import asyncio
+from loguru import logger
 from paper_survey_agent.llm.client import llm_client
 from paper_survey_agent.llm.prompts import SURVEY_SYNTHESIS_SYSTEM_PROMPT
 from paper_survey_agent.models.paper import SummarizedPaper
 def format_papers_for_synthesis(papers: list[SummarizedPaper]) -> str:
     context_parts = []

uv.lock CHANGED Viewed

The diff for this file is too large to render. See raw diff