Include firstSeed and seedCount in crawl endpoints (#618)

2023-02-22 10:27:31 -05:00 · 2023-02-22 10:27:31 -05:00 · ed94dde7e6
commit ed94dde7e6
parent c309b809da
2 changed files with 53 additions and 5 deletions
--- a/backend/btrixcloud/crawls.py
+++ b/backend/btrixcloud/crawls.py
@ -10,11 +10,11 @@ from typing import Optional, List, Dict, Union
 from datetime import datetime, timedelta
 from fastapi import Depends, HTTPException
-from pydantic import BaseModel, UUID4, conint
+from pydantic import BaseModel, UUID4, conint, HttpUrl
 from redis import asyncio as aioredis, exceptions
 import pymongo
-
+from .crawlconfigs import Seed
 from .db import BaseMongoModel
 from .users import User
 from .orgs import Organization, MAX_CRAWL_SCALE
@ -91,11 +91,13 @@ class Crawl(BaseMongoModel):
 # ============================================================================
 class CrawlOut(Crawl):
-    """Output for single crawl, add configName and userName"""
+    """Output for single crawl, with additional fields"""
    userName: Optional[str]
    configName: Optional[str]
    resources: Optional[List[CrawlFileOut]] = []
    firstSeed: Optional[str]
    seedCount: Optional[int] = 0
 # ============================================================================
@ -128,6 +130,9 @@ class ListCrawlOut(BaseMongoModel):
    notes: Optional[str]
    firstSeed: Optional[str]
    seedCount: Optional[int] = 0
 # ============================================================================
 class ListCrawls(BaseModel):
@ -252,6 +257,8 @@ class CrawlOps:
        results = await cursor.to_list(length=1000)
        crawls = [crawl_cls.from_dict(res) for res in results]
        crawls = [await self._resolve_crawl_refs(crawl, org) for crawl in crawls]
        return crawls
    async def get_crawl_raw(self, crawlid: str, org: Organization):
@ -285,7 +292,7 @@ class CrawlOps:
        return await self._resolve_crawl_refs(crawl, org)
    async def _resolve_crawl_refs(
-        self, crawl: Union[CrawlOut, ListCrawlOut], org: Organization
+        self, crawl: Union[CrawlOut, ListCrawlOut], org: Optional[Organization]
    ):
        """Resolve running crawl data"""
        config = await self.crawl_configs.get_crawl_config(
@ -293,7 +300,16 @@ class CrawlOps:
        )
        if config:
-            crawl.configName = config.name
+            if not crawl.configName:
                crawl.configName = config.name
            if config.config.seeds:
                first_seed = config.config.seeds[0]
                if isinstance(first_seed, HttpUrl):
                    crawl.firstSeed = first_seed
                elif isinstance(first_seed, Seed):
                    crawl.firstSeed = first_seed.url
                crawl.seedCount = len(config.config.seeds)
        user = await self.user_manager.get(crawl.userid)
        if user:
--- a/backend/test/test_run_crawl.py
+++ b/backend/test/test_run_crawl.py
@ -75,6 +75,38 @@ def test_crawl_info(admin_auth_headers, default_org_id, admin_crawl_id):
    assert data["fileSize"] == wacz_size
 def test_crawls_include_seed_info(admin_auth_headers, default_org_id, admin_crawl_id):
    r = requests.get(
        f"{API_PREFIX}/orgs/{default_org_id}/crawls/{admin_crawl_id}",
        headers=admin_auth_headers,
    )
    data = r.json()
    assert data["firstSeed"] == "https://webrecorder.net/"
    assert data["seedCount"] == 1
    r = requests.get(
        f"{API_PREFIX}/orgs/{default_org_id}/crawls",
        headers=admin_auth_headers,
    )
    data = r.json()
    crawls = data["crawls"]
    assert crawls
    for crawl in crawls:
        assert crawl["firstSeed"]
        assert crawl["seedCount"] > 0
    r = requests.get(
        f"{API_PREFIX}/orgs/all/crawls",
        headers=admin_auth_headers,
    )
    data = r.json()
    crawls = data["crawls"]
    assert crawls
    for crawl in crawls:
        assert crawl["firstSeed"]
        assert crawl["seedCount"] > 0
 def test_download_wacz():
    r = requests.get(HOST_PREFIX + wacz_path)
    assert r.status_code == 200