Add API endpoints for crawl statistics (#1461)

Fixes #1158 Introduces two new API endpoints that stream crawling statistics CSVs (with a suggested attachment filename header): - `GET /api/orgs/all/crawls/stats` - crawls from all orgs (superuser only) - `GET /api/orgs/{oid}/crawls/stats` - crawls from just one org (available to org crawler/admin users as well as superusers) Also includes tests for both endpoints.
2024-01-10 16:30:47 -05:00 · 2024-01-10 16:30:47 -05:00 · 38a01860b8
commit 38a01860b8
parent 99dd9b4acb
5 changed files with 202 additions and 9 deletions
--- a/backend/btrixcloud/crawls.py
+++ b/backend/btrixcloud/crawls.py
@ -6,7 +6,7 @@ import re
 import urllib.parse
 from uuid import UUID
-from typing import Optional, List
+from typing import Optional, List, Dict, Union
 from fastapi import Depends, HTTPException
 from fastapi.responses import StreamingResponse
@ -14,7 +14,7 @@ from redis import asyncio as exceptions
 import pymongo
 from .pagination import DEFAULT_PAGE_SIZE, paginated_format
-from .utils import dt_now, parse_jsonl_error_messages
+from .utils import dt_now, parse_jsonl_error_messages, stream_dict_list_as_csv
 from .basecrawls import BaseCrawlOps
 from .models import (
    UpdateCrawl,
@ -497,6 +497,74 @@ class CrawlOps(BaseCrawlOps):
        except Exception:
            return [], 0
    async def get_crawl_stats(
        self, org: Optional[Organization] = None
    ) -> List[Dict[str, Union[str, int]]]:
        """Return crawl statistics"""
        # pylint: disable=too-many-locals
        org_slugs = await self.orgs.get_org_slugs_by_ids()
        user_emails = await self.user_manager.get_user_emails_by_ids()
        crawls_data: List[Dict[str, Union[str, int]]] = []
        query: Dict[str, Union[str, UUID]] = {"type": "crawl"}
        if org:
            query["oid"] = org.id
        async for crawl in self.crawls.find(query):
            data: Dict[str, Union[str, int]] = {}
            data["id"] = str(crawl.get("_id"))
            oid = crawl.get("oid")
            data["oid"] = str(oid)
            data["org"] = org_slugs[oid]
            data["cid"] = str(crawl.get("cid"))
            crawl_name = crawl.get("name")
            data["name"] = f'"{crawl_name}"' if crawl_name else ""
            data["state"] = crawl.get("state")
            userid = crawl.get("userid")
            data["userid"] = str(userid)
            data["user"] = user_emails.get(userid)
            started = crawl.get("started")
            finished = crawl.get("finished")
            data["started"] = str(started)
            data["finished"] = str(finished)
            data["duration"] = 0
            if started and finished:
                duration = finished - started
                duration_seconds = int(duration.total_seconds())
                if duration_seconds:
                    data["duration"] = duration_seconds
            done_stats = None
            if crawl.get("stats") and crawl.get("stats").get("done"):
                done_stats = crawl["stats"]["done"]
            data["pages"] = 0
            if done_stats:
                data["pages"] = done_stats
            data["filesize"] = crawl.get("fileSize", 0)
            data["avg_page_time"] = 0
            if (
                done_stats
                and done_stats != 0
                and started
                and finished
                and duration_seconds
            ):
                data["avg_page_time"] = int(duration_seconds / done_stats)
            crawls_data.append(data)
        return crawls_data
 # ============================================================================
 async def recompute_crawl_file_count_and_size(crawls, crawl_id):
@ -646,6 +714,23 @@ def init_crawls_api(app, user_dep, *args):
    ):
        return await ops.delete_crawls(org, delete_list, "crawl", user)
    @app.get("/orgs/all/crawls/stats", tags=["crawls"])
    async def get_all_orgs_crawl_stats(
        user: User = Depends(user_dep),
    ):
        if not user.is_superuser:
            raise HTTPException(status_code=403, detail="Not Allowed")
        crawl_stats = await ops.get_crawl_stats()
        return stream_dict_list_as_csv(crawl_stats, "crawling-stats.csv")
    @app.get("/orgs/{oid}/crawls/stats", tags=["crawls"])
    async def get_org_crawl_stats(
        org: Organization = Depends(org_crawl_dep),
    ):
        crawl_stats = await ops.get_crawl_stats(org)
        return stream_dict_list_as_csv(crawl_stats, f"crawling-stats-{org.id}.csv")
    @app.get(
        "/orgs/all/crawls/{crawl_id}/replay.json",
        tags=["crawls"],
--- a/backend/btrixcloud/orgs.py
+++ b/backend/btrixcloud/orgs.py
@ -1,6 +1,7 @@
 """
 Organization API handling
 """
 # pylint: disable=too-many-lines
 import math
 import os
 import time
@ -653,7 +654,7 @@ class OrgOps:
        slugs = await self.orgs.distinct("slug", {})
        return {"slugs": slugs}
-    async def get_all_org_slugs_with_ids(self):
+    async def get_org_slugs_by_ids(self):
        """Return dict with {id: slug} for all orgs."""
        slug_id_map = {}
        async for org in self.orgs.find({}):
@ -933,6 +934,6 @@ def init_orgs_api(app, mdb, user_manager, invites, user_dep):
    async def get_all_org_slugs_with_ids(user: User = Depends(user_dep)):
        if not user.is_superuser:
            raise HTTPException(status_code=403, detail="Not Allowed")
-        return await ops.get_all_org_slugs_with_ids()
+        return await ops.get_org_slugs_by_ids()
    return ops
--- a/backend/btrixcloud/users.py
+++ b/backend/btrixcloud/users.py
@ -213,6 +213,13 @@ class UserManager:
        )
        return await cursor.to_list(length=1000)
    async def get_user_emails_by_ids(self):
        """return dict of user emails keyed by id"""
        email_id_map = {}
        async for user in self.users.find({}):
            email_id_map[user["id"]] = user["email"]
        return email_id_map
    async def get_superuser(self) -> Optional[User]:
        """return current superuser, if any"""
        user_data = await self.users.find_one({"is_superuser": True})
--- a/backend/btrixcloud/utils.py
+++ b/backend/btrixcloud/utils.py
@ -1,15 +1,19 @@
 """ k8s utils """
 from typing import Optional
 import os
 import asyncio
 import json
 import sys
 import signal
 import atexit
 import csv
 import io
 import json
 import signal
 import os
 import sys
 from datetime import datetime
 from typing import Optional, Dict, Union, List
 from fastapi import HTTPException
 from fastapi.responses import StreamingResponse
 from slugify import slugify
@ -97,3 +101,22 @@ def is_bool(stri: Optional[str]) -> bool:
 def slug_from_name(name: str) -> str:
    """Generate slug from name"""
    return slugify(name.replace("'", ""))
 def stream_dict_list_as_csv(data: List[Dict[str, Union[str, int]]], filename: str):
    """Stream list of dictionaries as CSV with attachment filename header"""
    if not data:
        raise HTTPException(status_code=404, detail="crawls_not_found")
    keys = data[0].keys()
    buffer = io.StringIO()
    dict_writer = csv.DictWriter(buffer, keys, quoting=csv.QUOTE_NONNUMERIC)
    dict_writer.writeheader()
    dict_writer.writerows(data)
    return StreamingResponse(
        iter([buffer.getvalue()]),
        media_type="text/csv",
        headers={"Content-Disposition": f"attachment;filename={filename}"},
    )
--- a/backend/test/test_run_crawl.py
+++ b/backend/test/test_run_crawl.py
@ -4,6 +4,8 @@ import time
 import io
 import zipfile
 import re
 import csv
 import codecs
 from .conftest import API_PREFIX, HOST_PREFIX
 from .test_collections import UPDATED_NAME as COLLECTION_NAME
@ -297,6 +299,81 @@ def test_update_crawl(
    assert not data["description"]
 def test_crawl_stats_all_orgs_not_superadmin(crawler_auth_headers):
    r = requests.get(
        f"{API_PREFIX}/orgs/all/crawls/stats", headers=crawler_auth_headers
    )
    assert r.status_code == 403
 def test_crawl_stats_all_orgs(admin_auth_headers):
    with requests.get(
        f"{API_PREFIX}/orgs/all/crawls/stats", headers=admin_auth_headers, stream=True
    ) as r:
        assert r.status_code == 200
        # Wait for stream content
        if not r.content:
            while True:
                if r.content:
                    break
                time.sleep(5)
        buffer = r.iter_lines()
        for row in csv.DictReader(
            codecs.iterdecode(buffer, "utf-8"), skipinitialspace=True
        ):
            assert row["id"]
            assert row["oid"]
            assert row["org"]
            assert row["cid"]
            assert row["name"] or row["name"] == ""
            assert row["state"]
            assert row["userid"]
            assert row["user"]
            assert row["started"]
            assert row["finished"] or row["finished"] is None
            assert row["duration"] or row["duration"] == 0
            assert row["pages"] or row["pages"] == 0
            assert row["filesize"] or row["filesize"] == 0
            assert row["avg_page_time"] or row["avg_page_time"] == 0
 def test_crawl_stats(crawler_auth_headers, default_org_id):
    with requests.get(
        f"{API_PREFIX}/orgs/{default_org_id}/crawls/stats",
        headers=crawler_auth_headers,
        stream=True,
    ) as r:
        assert r.status_code == 200
        # Wait for stream content
        if not r.content:
            while True:
                if r.content:
                    break
                time.sleep(5)
        buffer = r.iter_lines()
        for row in csv.DictReader(
            codecs.iterdecode(buffer, "utf-8"), skipinitialspace=True
        ):
            assert row["id"]
            assert row["oid"] == default_org_id
            assert row["org"]
            assert row["cid"]
            assert row["name"] or row["name"] == ""
            assert row["state"]
            assert row["userid"]
            assert row["user"]
            assert row["started"]
            assert row["finished"] or row["finished"] is None
            assert row["duration"] or row["duration"] == 0
            assert row["pages"] or row["pages"] == 0
            assert row["filesize"] or row["filesize"] == 0
            assert row["avg_page_time"] or row["avg_page_time"] == 0
 def test_delete_crawls_crawler(
    crawler_auth_headers, default_org_id, admin_crawl_id, crawler_crawl_id
 ):