feat: BWB pipeline — SRU crawler, downloader, runner

- SRU client: crawlt zoekservice.overheid.nl voor alle BWB regelingen - Downloader: haalt XML op van repository.officiele-overheidspublicaties.nl - Pipeline runner: orchestreert crawl → download → parse → schrijf Markdown - Deduplicatie: meerdere SRU toestanden → meest recente per BWB-ID - Mappenstructuur conform PRD: wet/{slug}/{BWB_ID}/README.md - CLI: python -m wetgit.pipeline.runner --output /path --type wet --limit N Getest: 28 wetten succesvol gedownload en geparsed, 0 failures. Refs #6
2026-03-29 21:27:47 +02:00 · 2026-03-29 21:27:47 +02:00 · da7d11deb9
commit da7d11deb9
parent c481ebf9e7
3 changed files with 378 additions and 0 deletions
--- a/src/wetgit/pipeline/downloader.py
+++ b/src/wetgit/pipeline/downloader.py
@ -0,0 +1,41 @@
 """BWB XML downloader.
 Downloadt BWB toestand-XML bestanden van de officiele repository.
 """
 from __future__ import annotations
 import logging
 from pathlib import Path
 import httpx
 from wetgit.pipeline.sru_client import SRURecord
 logger = logging.getLogger(__name__)
 def download_xml(record: SRURecord, output_dir: Path) -> Path | None:
    """Download de XML voor een SRU record.
    Args:
        record: SRU record met de download-URL.
        output_dir: Directory om de XML op te slaan.
    Returns:
        Pad naar het gedownloade bestand, of None bij fout.
    """
    xml_path = output_dir / f"{record.bwb_id}.xml"
    if xml_path.exists():
        return xml_path
    try:
        resp = httpx.get(record.xml_url, timeout=60, follow_redirects=True)
        resp.raise_for_status()
        xml_path.write_bytes(resp.content)
        logger.debug("Downloaded %s (%d KB)", record.bwb_id, len(resp.content) // 1024)
        return xml_path
    except httpx.HTTPError as e:
        logger.warning("Download failed for %s: %s", record.bwb_id, e)
        return None
--- a/src/wetgit/pipeline/runner.py
+++ b/src/wetgit/pipeline/runner.py
@ -0,0 +1,151 @@
 """Pipeline runner — orkestreert SRU crawl, download en parse.
 Usage:
    python -m wetgit.pipeline.runner --type wet --limit 100 --output /tmp/wetgit-output
 """
 from __future__ import annotations
 import json
 import logging
 import time
 from pathlib import Path
 from wetgit.pipeline.bwb_parser import parse_bwb_xml
 from wetgit.pipeline.downloader import download_xml
 from wetgit.pipeline.sru_client import BWB_TYPES, SRURecord, fetch_catalogue
 logger = logging.getLogger(__name__)
 # Mappenstructuur conform PRD
 TYPE_TO_DIR = {
    "wet": "wet",
    "AMvB": "amvb",
    "ministeriele-regeling": "ministeriele-regeling",
    "KB": "kb",
    "rijkswet": "rijkswet",
    "verdrag": "verdrag",
    "beleidsregel": "beleidsregel",
    "circulaire": "circulaire",
    "zbo": "zbo",
    "pbo": "pbo",
 }
 def run_pipeline(
    output_dir: Path,
    xml_cache_dir: Path | None = None,
    types: list[str] | None = None,
    limit: int | None = None,
    delay: float = 0.3,
 ) -> dict[str, int]:
    """Draai de volledige BWB pipeline.
    Args:
        output_dir: Waar de Markdown bestanden geschreven worden.
        xml_cache_dir: Cache directory voor gedownloade XML (default: output_dir/.xml-cache).
        types: Regelingtypen om te verwerken (default: alle).
        limit: Maximum aantal regelingen (None = alles).
        delay: Vertraging tussen downloads (sec).
    Returns:
        Dict met statistieken (success, failed, skipped).
    """
    xml_cache_dir = xml_cache_dir or output_dir / ".xml-cache"
    xml_cache_dir.mkdir(parents=True, exist_ok=True)
    output_dir.mkdir(parents=True, exist_ok=True)
    stats = {"catalogus": 0, "downloaded": 0, "parsed": 0, "failed": 0, "skipped": 0}
    # Stap 1: SRU catalogus ophalen
    logger.info("Stap 1: SRU catalogus ophalen (types=%s, limit=%s)", types, limit)
    records = fetch_catalogue(types=types, max_records=limit)
    stats["catalogus"] = len(records)
    logger.info("Catalogus: %d regelingen gevonden", len(records))
    # Dedupliceer op BWB-ID (SRU kan meerdere toestanden per regeling geven)
    # Neem de laatste (meest recente) per BWB-ID
    seen: dict[str, SRURecord] = {}
    for r in records:
        seen[r.bwb_id] = r  # Laatste wint
    unique_records = list(seen.values())
    logger.info("Na deduplicatie: %d unieke regelingen", len(unique_records))
    # Stap 2+3: Download en parse
    for i, record in enumerate(unique_records):
        if i > 0 and i % 100 == 0:
            logger.info("Voortgang: %d/%d (%d parsed, %d failed)",
                        i, len(unique_records), stats["parsed"], stats["failed"])
        # Bepaal output pad: output_dir/{type}/{slug}/{BWB_ID}/README.md
        type_dir = TYPE_TO_DIR.get(record.type, "overig")
        slug = _slugify(record.titel) if record.titel else record.bwb_id.lower()
        regeling_dir = output_dir / type_dir / slug / record.bwb_id
        md_path = regeling_dir / "README.md"
        if md_path.exists():
            stats["skipped"] += 1
            continue
        # Download
        xml_path = download_xml(record, xml_cache_dir)
        if xml_path is None:
            stats["failed"] += 1
            continue
        stats["downloaded"] += 1
        # Parse
        try:
            result = parse_bwb_xml(str(xml_path))
            regeling_dir.mkdir(parents=True, exist_ok=True)
            md_path.write_text(result.markdown, encoding="utf-8")
            stats["parsed"] += 1
        except Exception as e:
            logger.warning("Parse failed for %s: %s", record.bwb_id, e)
            stats["failed"] += 1
        if delay > 0:
            time.sleep(delay)
    logger.info(
        "Pipeline klaar: %d parsed, %d failed, %d skipped van %d",
        stats["parsed"], stats["failed"], stats["skipped"], stats["catalogus"],
    )
    return stats
 def _slugify(text: str) -> str:
    """Maak een URL-veilige slug van een titel."""
    import re
    slug = text.lower().strip()
    slug = re.sub(r"[^\w\s-]", "", slug)
    slug = re.sub(r"[\s_]+", "-", slug)
    slug = re.sub(r"-+", "-", slug)
    return slug[:80].strip("-")
 if __name__ == "__main__":
    import argparse
    logging.basicConfig(
        level=logging.INFO,
        format="%(asctime)s %(levelname)s %(message)s",
        datefmt="%H:%M:%S",
    )
    parser = argparse.ArgumentParser(description="WetGit BWB pipeline")
    parser.add_argument("--output", type=Path, required=True, help="Output directory")
    parser.add_argument("--xml-cache", type=Path, help="XML cache directory")
    parser.add_argument("--type", action="append", dest="types", help="Regelingtype (herhaalbaar)")
    parser.add_argument("--limit", type=int, help="Maximum aantal regelingen")
    parser.add_argument("--delay", type=float, default=0.3, help="Delay tussen downloads (sec)")
    args = parser.parse_args()
    stats = run_pipeline(
        output_dir=args.output,
        xml_cache_dir=args.xml_cache,
        types=args.types,
        limit=args.limit,
        delay=args.delay,
    )
    print(json.dumps(stats, indent=2))
--- a/src/wetgit/pipeline/sru_client.py
+++ b/src/wetgit/pipeline/sru_client.py
@ -0,0 +1,186 @@
 """SRU client voor het Basiswettenbestand.
 Crawlt de SRU-zoekservice van overheid.nl om BWB regelingen te vinden
 en download-URLs voor de XML-toestanden op te halen.
 """
 from __future__ import annotations
 import logging
 import time
 from dataclasses import dataclass, field
 import httpx
 from lxml import etree
 logger = logging.getLogger(__name__)
 SRU_BASE = "https://zoekservice.overheid.nl/sru/Search"
 SRU_NS = {
    "srw": "http://www.loc.gov/zing/srw/",
    "bwb": "http://standaarden.overheid.nl/bwb/terms/",
    "dcterms": "http://purl.org/dc/terms/",
    "overheid": "http://standaarden.overheid.nl/owms/terms/",
 }
 # Alle regelingtypen in het BWB
 BWB_TYPES = [
    "wet", "AMvB", "ministeriele-regeling", "KB", "rijkswet",
    "verdrag", "beleidsregel", "circulaire", "zbo", "pbo",
 ]
@dataclass(frozen=True)
 class SRURecord:
    """Eén regeling uit de SRU-response."""
    bwb_id: str
    titel: str
    type: str
    xml_url: str
    wti_url: str
    datum_geldig_van: str | None = None
    datum_geldig_tot: str | None = None
    ministerie: str | None = None
 def fetch_catalogue(
    types: list[str] | None = None,
    max_records: int | None = None,
    batch_size: int = 100,
    delay: float = 0.5,
 ) -> list[SRURecord]:
    """Haal de volledige BWB catalogus op via SRU.
    Args:
        types: Lijst van regelingtypen om op te halen (default: alle).
        max_records: Maximum aantal records (None = alles).
        batch_size: Aantal records per SRU-request (max 100).
        delay: Vertraging tussen requests (sec) om de server niet te overbelasten.
    Returns:
        Lijst van SRURecords met metadata en download-URLs.
    """
    types = types or BWB_TYPES
    all_records: list[SRURecord] = []
    for type_name in types:
        query = f"dcterms.type=={type_name}"
        start = 1
        while True:
            records, total = _fetch_page(query, start, batch_size)
            all_records.extend(records)
            logger.info(
                "SRU %s: %d-%d / %d (totaal: %d)",
                type_name, start, start + len(records) - 1, total, len(all_records),
            )
            if max_records and len(all_records) >= max_records:
                return all_records[:max_records]
            start += len(records)
            if start > total or not records:
                break
            time.sleep(delay)
    return all_records
 def fetch_latest_toestand(bwb_id: str) -> SRURecord | None:
    """Haal de meest recente toestand op voor één BWB-ID.
    Args:
        bwb_id: Het BWB identificatienummer (bijv. BWBR0001840).
    Returns:
        SRURecord of None als niet gevonden.
    """
    records, _ = _fetch_page(f"dcterms.identifier={bwb_id}", 1, 100)
    if not records:
        return None
    # Neem de laatste (meest recente toestand)
    return records[-1]
 def _fetch_page(
    query: str, start_record: int, maximum_records: int,
 ) -> tuple[list[SRURecord], int]:
    """Haal één pagina SRU-resultaten op."""
    params = {
        "operation": "searchRetrieve",
        "version": "1.2",
        "x-connection": "BWB",
        "query": query,
        "startRecord": str(start_record),
        "maximumRecords": str(maximum_records),
    }
    resp = httpx.get(SRU_BASE, params=params, timeout=30)
    resp.raise_for_status()
    tree = etree.fromstring(resp.content)
    # Totaal aantal records
    total_el = tree.find(".//srw:numberOfRecords", SRU_NS)
    total = int(total_el.text) if total_el is not None and total_el.text else 0
    records: list[SRURecord] = []
    for record in tree.findall(".//srw:record", SRU_NS):
        parsed = _parse_record(record)
        if parsed:
            records.append(parsed)
    return records, total
 def _parse_record(record: etree._Element) -> SRURecord | None:
    """Parse één SRU record naar een SRURecord."""
    # Zoek in originalData en enrichedData
    bwb_id = ""
    titel = ""
    type_ = ""
    xml_url = ""
    wti_url = ""
    datum_van = None
    datum_tot = None
    ministerie = None
    for elem in record.iter():
        tag = elem.tag
        text = (elem.text or "").strip()
        if not text:
            continue
        if tag.endswith("}identifier") and "BWB" in text:
            bwb_id = text
        elif tag.endswith("}title"):
            titel = text
        elif tag.endswith("}type") and text in BWB_TYPES:
            type_ = text
        elif tag.endswith("}authority") or tag.endswith("}creator"):
            if not ministerie:
                ministerie = text
        elif "locatie_toestand" in tag:
            xml_url = text
        elif "locatie_wti" in tag:
            wti_url = text
        elif "geldigheidsperiode_startdatum" in tag:
            datum_van = text
        elif "geldigheidsperiode_einddatum" in tag:
            datum_tot = text
    if not bwb_id or not xml_url:
        return None
    return SRURecord(
        bwb_id=bwb_id,
        titel=titel,
        type=type_,
        xml_url=xml_url,
        wti_url=wti_url,
        datum_geldig_van=datum_van,
        datum_geldig_tot=datum_tot,
        ministerie=ministerie,
    )