gallery-dl/gallery_dl/extractor/wikimedia.py

# -*- coding: utf-8 -*-

# Copyright 2022 Ailothaen
# Copyright 2024 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extractors for Wikimedia sites"""

from .common import BaseExtractor, Message
from .. import text


class WikimediaExtractor(BaseExtractor):
    """Base class for wikimedia extractors"""
    basecategory = "wikimedia"
    directory_fmt = ("{category}", "{page}")
    archive_fmt = "{sha1}"
    request_interval = (1.0, 2.0)

    def __init__(self, match):
        BaseExtractor.__init__(self, match)
        path = match.group(match.lastindex)

        if path.startswith("wiki/"):
            path = path[5:]
            self.api_path = "/w/api.php"
        else:
            self.api_path = "/api.php"

        pre, sep, _ = path.partition(":")
        prefix = pre.lower() if sep else None

        self.title = path = text.unquote(path)
        if prefix:
            self.subcategory = prefix

        if prefix == "category":
            self.params = {
                "generator": "categorymembers",
                "gcmtitle" : path,
                "gcmtype"  : "file",
            }
        elif prefix == "file":
            self.params = {
                "titles"   : path,
            }
        else:
            self.params = {
                "generator": "images",
                "titles"   : path,
            }

    def _init(self):
        api_path = self.config_instance("api-path")
        if api_path:
            if api_path[0] == "/":
                self.api_url = self.root + api_path
            else:
                self.api_url = api_path
        else:
            self.api_url = self.root + self.api_path

    def items(self):
        for info in self._pagination(self.params):
            image = info["imageinfo"][0]

            image["metadata"] = {
                m["name"]: m["value"]
                for m in image["metadata"]}
            image["commonmetadata"] = {
                m["name"]: m["value"]
                for m in image["commonmetadata"]}

            filename = image["canonicaltitle"]
            image["filename"], _, image["extension"] = \
                filename.partition(":")[2].rpartition(".")
            image["date"] = text.parse_datetime(
                image["timestamp"], "%Y-%m-%dT%H:%M:%SZ")
            image["page"] = self.title

            yield Message.Directory, image
            yield Message.Url, image["url"], image

    def _pagination(self, params):
        """
        https://www.mediawiki.org/wiki/API:Query
        https://opendata.stackexchange.com/questions/13381
        """

        url = self.api_url
        params["action"] = "query"
        params["format"] = "json"
        params["prop"] = "imageinfo"
        params["iiprop"] = (
            "timestamp|user|userid|comment|canonicaltitle|url|size|"
            "sha1|mime|metadata|commonmetadata|extmetadata|bitdepth"
        )

        while True:
            data = self.request(url, params=params).json()

            try:
                pages = data["query"]["pages"]
            except KeyError:
                pass
            else:
                yield from pages.values()

            try:
                continuation = data["continue"]
            except KeyError:
                break
            params.update(continuation)


BASE_PATTERN = WikimediaExtractor.update({
    "wikipedia": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wikipedia\.org",
    },
    "wiktionary": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wiktionary\.org",
    },
    "wikiquote": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wikiquote\.org",
    },
    "wikibooks": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wikibooks\.org",
    },
    "wikisource": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wikisource\.org",
    },
    "wikinews": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wikinews\.org",
    },
    "wikiversity": {
        "root": None,
        "pattern": r"[a-z]{2,}\.wikiversity\.org",
    },
    "wikispecies": {
        "root": "https://species.wikimedia.org",
        "pattern": r"species\.wikimedia\.org",
    },
    "wikimediacommons": {
        "root": "https://commons.wikimedia.org",
        "pattern": r"commons\.wikimedia\.org",
    },
    "mediawiki": {
        "root": "https://www.mediawiki.org",
        "pattern": r"(?:www\.)?mediawiki\.org",
    },
    "mariowiki": {
        "root": "https://www.mariowiki.com",
        "pattern": r"(?:www\.)?mariowiki\.com",
    },
})


class WikimediaArticleExtractor(WikimediaExtractor):
    """Extractor for wikimedia articles"""
    subcategory = "article"
    pattern = BASE_PATTERN + r"/(?!static/)([^?#]+)"
    example = "https://en.wikipedia.org/wiki/TITLE"
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago			`# -- coding: utf-8 --`

[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`# Copyright 2022 Ailothaen`
			`# Copyright 2024 Mike Fährmann`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`"""Extractors for Wikimedia sites"""`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`from .common import BaseExtractor, Message`
			`from .. import text`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago

[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`class WikimediaExtractor(BaseExtractor):`
			`"""Base class for wikimedia extractors"""`
			`basecategory = "wikimedia"`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago			`directory_fmt = ("{category}", "{page}")`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`archive_fmt = "{sha1}"`
			`request_interval = (1.0, 2.0)`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago
			`def __init__(self, match):`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`BaseExtractor.__init__(self, match)`
[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`path = match.group(match.lastindex)`

			`if path.startswith("wiki/"):`
			`path = path[5:]`
			`self.api_path = "/w/api.php"`
			`else:`
			`self.api_path = "/api.php"`

			`pre, sep, _ = path.partition(":")`
			`prefix = pre.lower() if sep else None`

			`self.title = path = text.unquote(path)`
[wikimedia] handle 'File:' paths 8 months ago			`if prefix:`
			`self.subcategory = prefix`
[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago
			`if prefix == "category":`
			`self.params = {`
			`"generator": "categorymembers",`
			`"gcmtitle" : path,`
			`"gcmtype" : "file",`
			`}`
[wikimedia] handle 'File:' paths 8 months ago			`elif prefix == "file":`
			`self.params = {`
			`"titles" : path,`
			`}`
[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`else:`
			`self.params = {`
			`"generator": "images",`
			`"titles" : path,`
			`}`

			`def _init(self):`
			`api_path = self.config_instance("api-path")`
			`if api_path:`
			`if api_path[0] == "/":`
			`self.api_url = self.root + api_path`
			`else:`
			`self.api_url = api_path`
			`else:`
			`self.api_url = self.root + self.api_path`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago
			`def items(self):`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`for info in self._pagination(self.params):`
			`image = info["imageinfo"][0]`

			`image["metadata"] = {`
			`m["name"]: m["value"]`
			`for m in image["metadata"]}`
			`image["commonmetadata"] = {`
			`m["name"]: m["value"]`
			`for m in image["commonmetadata"]}`

			`filename = image["canonicaltitle"]`
			`image["filename"], _, image["extension"] = \`
			`filename.partition(":")[2].rpartition(".")`
			`image["date"] = text.parse_datetime(`
			`image["timestamp"], "%Y-%m-%dT%H:%M:%SZ")`
			`image["page"] = self.title`

			`yield Message.Directory, image`
			`yield Message.Url, image["url"], image`

			`def _pagination(self, params):`
			`"""`
			`https://www.mediawiki.org/wiki/API:Query`
			`https://opendata.stackexchange.com/questions/13381`
			`"""`

[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`url = self.api_url`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`params["action"] = "query"`
			`params["format"] = "json"`
[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`params["prop"] = "imageinfo"`
			`params["iiprop"] = (`
			`"timestamp\|user\|userid\|comment\|canonicaltitle\|url\|size\|"`
			`"sha1\|mime\|metadata\|commonmetadata\|extmetadata\|bitdepth"`
			`)`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago
			`while True:`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`data = self.request(url, params=params).json()`
[wikimedia] Add Wikipedia/Wikimedia extractor 3 years ago
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`try:`
			`pages = data["query"]["pages"]`
			`except KeyError:`
			`pass`
			`else:`
			`yield from pages.values()`

			`try:`
			`continuation = data["continue"]`
			`except KeyError:`
			`break`
			`params.update(continuation)`


			`BASE_PATTERN = WikimediaExtractor.update({`
			`"wikipedia": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wikipedia\.org",`
			`},`
			`"wiktionary": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wiktionary\.org",`
			`},`
			`"wikiquote": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wikiquote\.org",`
			`},`
			`"wikibooks": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wikibooks\.org",`
			`},`
			`"wikisource": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wikisource\.org",`
			`},`
			`"wikinews": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wikinews\.org",`
			`},`
			`"wikiversity": {`
			`"root": None,`
			`"pattern": r"[a-z]{2,}\.wikiversity\.org",`
			`},`
			`"wikispecies": {`
			`"root": "https://species.wikimedia.org",`
			`"pattern": r"species\.wikimedia\.org",`
			`},`
			`"wikimediacommons": {`
			`"root": "https://commons.wikimedia.org",`
			`"pattern": r"commons\.wikimedia\.org",`
			`},`
[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`"mediawiki": {`
			`"root": "https://www.mediawiki.org",`
			`"pattern": r"(?:www\.)?mediawiki\.org",`
			`},`
			`"mariowiki": {`
			`"root": "https://www.mariowiki.com",`
			`"pattern": r"(?:www\.)?mariowiki\.com",`
			`},`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`})`


			`class WikimediaArticleExtractor(WikimediaExtractor):`
			`"""Extractor for wikimedia articles"""`
			`subcategory = "article"`
[wikimedia] generalize (#1443) - support mediawiki.org - support mariowiki.com (#3660) - combine code into a single extractor (use prefix as subcategory) - handle non-wiki instances - unescape titles 8 months ago			`pattern = BASE_PATTERN + r"/(?!static/)([^?#]+)"`
[wikimedia] update - rewrite using BaseExtractor - support most Wiki* domains - update docs/supportedsites - add tests 8 months ago			`example = "https://en.wikipedia.org/wiki/TITLE"`