gallery-dl/gallery_dl/extractor/mangadex.py

# -*- coding: utf-8 -*-

# Copyright 2018-2020 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extractors for https://mangadex.org/"""

from .common import Extractor, Message
from .. import text, util
from ..cache import memcache


class MangadexExtractor(Extractor):
    """Base class for mangadex extractors"""
    category = "mangadex"
    root = "https://mangadex.org"

    # mangadex-to-iso639-1 codes
    iso639_map = {
        "br": "pt",
        "ct": "ca",
        "gb": "en",
        "vn": "vi",
    }

    def chapter_data(self, chapter_id):
        """Request API results for 'chapter_id'"""
        url = "{}/api/v2/chapter/{}".format(self.root, chapter_id)
        return self.request(url).json()["data"]

    @memcache(keyarg=1)
    def manga_data(self, manga_id):
        """Request API results for 'manga_id'"""
        url = "{}/api/v2/manga/{}".format(self.root, manga_id)
        return self.request(url).json()["data"]

    def manga_chapters(self, manga_id):
        """Request chapter list for 'manga_id'"""
        url = "{}/api/v2/manga/{}/chapters".format(self.root, manga_id)
        data = self.request(url).json()["data"]

        groups = {
            group["id"]: group["name"]
            for group in data["groups"]
        }

        for chapter in data["chapters"]:
            cgroups = chapter["groups"]
            for idx, group_id in enumerate(cgroups):
                cgroups[idx] = groups[group_id]
            yield chapter


class MangadexChapterExtractor(MangadexExtractor):
    """Extractor for manga-chapters from mangadex.org"""
    subcategory = "chapter"
    directory_fmt = (
        "{category}", "{manga}",
        "{volume:?v/ />02}c{chapter:>03}{chapter_minor}{title:?: //}")
    filename_fmt = (
        "{manga}_c{chapter:>03}{chapter_minor}_{page:>03}.{extension}")
    archive_fmt = "{chapter_id}_{page}"
    pattern = r"(?:https?://)?(?:www\.)?mangadex\.(?:org|cc)/chapter/(\d+)"
    test = (
        ("https://mangadex.org/chapter/122094", {
            "keyword": "89d1b24b4baa1fb737d32711d9f2ade6ea426987",
            #  "content": "50383a4c15124682057b197d40261641a98db514",
        }),
        # oneshot
        ("https://mangadex.cc/chapter/138086", {
            "count": 64,
            "keyword": "c53a0e4c12250578a4e630281085875e59532c03",
        }),
    )

    def __init__(self, match):
        MangadexExtractor.__init__(self, match)
        self.chapter_id = match.group(1)

    def items(self):
        cdata = self.chapter_data(self.chapter_id)
        mdata = self.manga_data(cdata["mangaId"])

        chapter, sep, minor = cdata["chapter"].partition(".")
        lang = self.iso639_map.get(cdata["language"], cdata["language"])

        base = cdata["server"] + cdata["hash"] + "/"
        if base[0] == "/":
            base = text.urljoin(self.root, base)

        if "serverFallback" in cdata:
            fallback = cdata["serverFallback"] + cdata["hash"] + "/"
        else:
            fallback = None

        data = {
            "manga"   : text.unescape(mdata["title"]),
            "manga_id": mdata["id"],
            "artist"  : mdata["artist"],
            "author"  : mdata["author"],
            "title"   : text.unescape(cdata["title"]),
            "volume"  : text.parse_int(cdata["volume"]),
            "chapter" : text.parse_int(chapter),
            "chapter_minor": sep + minor,
            "chapter_id": cdata["id"],
            "group"   : [group["name"] for group in cdata["groups"]],
            "date"    : text.parse_timestamp(cdata["timestamp"]),
            "lang"    : lang,
            "language": util.code_to_language(lang),
            "count"   : len(cdata["pages"]),
        }

        yield Message.Directory, data
        for data["page"], page in enumerate(cdata["pages"], 1):
            if fallback:
                data["_fallback"] = (fallback + page,)
            yield Message.Url, base + page, text.nameext_from_url(page, data)


class MangadexMangaExtractor(MangadexExtractor):
    """Extractor for manga from mangadex.org"""
    subcategory = "manga"
    categorytransfer = True
    pattern = (r"(?:https?://)?(?:www\.)?mangadex\.(?:org|cc)"
               r"/(?:title|manga)/(\d+)")
    test = (
        ("https://mangadex.org/manga/2946/souten-no-koumori", {
            "pattern": r"https://mangadex.org/chapter/\d+",
            "keyword": {
                "manga"   : "Souten no Koumori",
                "manga_id": 2946,
                "title"   : "re:One[Ss]hot",
                "volume"  : 0,
                "chapter" : 0,
                "chapter_minor": "",
                "chapter_id": int,
                "group"   : list,
                "date"    : "type:datetime",
                "lang"    : str,
                "language": str,
            },
        }),
        ("https://mangadex.cc/manga/13318/dagashi-kashi/chapters/2/", {
            "count": ">= 100",
        }),
        ("https://mangadex.org/title/13004/yorumori-no-kuni-no-sora-ni", {
            "count": 0,
        }),
    )

    def __init__(self, match):
        MangadexExtractor.__init__(self, match)
        self.manga_id = match.group(1)

    def items(self):
        yield Message.Version, 1
        for data in self.chapters():
            url = "{}/chapter/{}".format(self.root, data["chapter_id"])
            yield Message.Queue, url, data

    def chapters(self):
        """Return a sorted list of chapter-metadata dicts"""
        manga = self.manga_data(self.manga_id)
        results = []

        for cdata in self.manga_chapters(self.manga_id):
            chapter, sep, minor = cdata["chapter"].partition(".")
            lang = self.iso639_map.get(cdata["language"], cdata["language"])
            results.append({
                "manga"   : text.unescape(manga["title"]),
                "manga_id": text.parse_int(self.manga_id),
                "artist"  : manga["artist"],
                "author"  : manga["author"],
                "title"   : text.unescape(cdata["title"]),
                "volume"  : text.parse_int(cdata["volume"]),
                "chapter" : text.parse_int(chapter),
                "chapter_minor": sep + minor,
                "chapter_id": text.parse_int(cdata["id"]),
                "group"   : cdata["groups"],
                "date"    : text.parse_timestamp(cdata["timestamp"]),
                "lang"    : lang,
                "language": util.code_to_language(lang),
                "_extractor": MangadexChapterExtractor,
            })

        results.sort(key=lambda x: (x["chapter"], x["chapter_minor"]))
        return results
[mangadex] add chapter- and manga-extractor 7 years ago			`# -- coding: utf-8 --`

[mangadex] revert domain to 'mangadex.org' 5 years ago			`# Copyright 2018-2020 Mike Fährmann`
[mangadex] add chapter- and manga-extractor 7 years ago			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

[mangadex] revert domain to 'mangadex.org' 5 years ago			`"""Extractors for https://mangadex.org/"""`
[mangadex] add chapter- and manga-extractor 7 years ago
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`from .common import Extractor, Message`
[mangadex] fix extraction 6 years ago			`from .. import text, util`
adjust cache maxage values 6 years ago			`from ..cache import memcache`
[mangadex] add chapter- and manga-extractor 7 years ago

[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`class MangadexExtractor(Extractor):`
[mangadex] add chapter- and manga-extractor 7 years ago			`"""Base class for mangadex extractors"""`
			`category = "mangadex"`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`root = "https://mangadex.org"`
[mangadex] add chapter- and manga-extractor 7 years ago
[mangadex] fix extraction 6 years ago			`# mangadex-to-iso639-1 codes`
			`iso639_map = {`
			`"br": "pt",`
			`"ct": "ca",`
			`"gb": "en",`
			`"vn": "vi",`
			`}`

[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`def chapter_data(self, chapter_id):`
			`"""Request API results for 'chapter_id'"""`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`url = "{}/api/v2/chapter/{}".format(self.root, chapter_id)`
			`return self.request(url).json()["data"]`
[mangadex] add chapter- and manga-extractor 7 years ago
adjust cache maxage values 6 years ago			`@memcache(keyarg=1)`
			`def manga_data(self, manga_id):`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`"""Request API results for 'manga_id'"""`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`url = "{}/api/v2/manga/{}".format(self.root, manga_id)`
			`return self.request(url).json()["data"]`

			`def manga_chapters(self, manga_id):`
			`"""Request chapter list for 'manga_id'"""`
			`url = "{}/api/v2/manga/{}/chapters".format(self.root, manga_id)`
			`data = self.request(url).json()["data"]`

			`groups = {`
			`group["id"]: group["name"]`
			`for group in data["groups"]`
			`}`

			`for chapter in data["chapters"]:`
			`cgroups = chapter["groups"]`
			`for idx, group_id in enumerate(cgroups):`
			`cgroups[idx] = groups[group_id]`
			`yield chapter`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago

			`class MangadexChapterExtractor(MangadexExtractor):`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`"""Extractor for manga-chapters from mangadex.org"""`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`subcategory = "chapter"`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`directory_fmt = (`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`"{category}", "{manga}",`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`"{volume:?v/ />02}c{chapter:>03}{chapter_minor}{title:?: //}")`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`filename_fmt = (`
			`"{manga}_c{chapter:>03}{chapter_minor}_{page:>03}.{extension}")`
[mangadex] general improvements - support >100 chapter entries per manga - custom archive ID format - detect non-existing chapters 7 years ago			`archive_fmt = "{chapter_id}_{page}"`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`pattern = r"(?:https?://)?(?:www\.)?mangadex\.(?:org\|cc)/chapter/(\d+)"`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`test = (`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`("https://mangadex.org/chapter/122094", {`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"keyword": "89d1b24b4baa1fb737d32711d9f2ade6ea426987",`
update extractor test results - certain posts on Instagram now return https://static.cdninstagram.com/rsrc.php/null.jpg for public users - MangaDex is deploying its new MangaDex@Home network similar to exhentai's Hentai@Home - realbooru has a new site layout, but the underlying booru API still works like before 4 years ago			`# "content": "50383a4c15124682057b197d40261641a98db514",`
[mangadex] add chapter- and manga-extractor 7 years ago			`}),`
			`# oneshot`
[mangadex] change domain to mangadex.cc (closes #559) 5 years ago			`("https://mangadex.cc/chapter/138086", {`
[mangadex] add chapter- and manga-extractor 7 years ago			`"count": 64,`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"keyword": "c53a0e4c12250578a4e630281085875e59532c03",`
[mangadex] fix parsing of unusual chapter strings 6 years ago			`}),`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`)`
[mangadex] add chapter- and manga-extractor 7 years ago
			`def __init__(self, match):`
propagate 'match' to base extractor constructor 6 years ago			`MangadexExtractor.__init__(self, match)`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`self.chapter_id = match.group(1)`
[mangadex] add chapter- and manga-extractor 7 years ago
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`def items(self):`
			`cdata = self.chapter_data(self.chapter_id)`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`mdata = self.manga_data(cdata["mangaId"])`
[mangadex] add chapter- and manga-extractor 7 years ago
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`chapter, sep, minor = cdata["chapter"].partition(".")`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`lang = self.iso639_map.get(cdata["language"], cdata["language"])`

			`base = cdata["server"] + cdata["hash"] + "/"`
			`if base[0] == "/":`
			`base = text.urljoin(self.root, base)`

			`if "serverFallback" in cdata:`
			`fallback = cdata["serverFallback"] + cdata["hash"] + "/"`
			`else:`
			`fallback = None`

			`data = {`
			`"manga" : text.unescape(mdata["title"]),`
			`"manga_id": mdata["id"],`
			`"artist" : mdata["artist"],`
			`"author" : mdata["author"],`
[mangadex] unescape more metadata fields (fixes #1066) like 'manga', 'author', 'artist', etc. 4 years ago			`"title" : text.unescape(cdata["title"]),`
			`"volume" : text.parse_int(cdata["volume"]),`
			`"chapter" : text.parse_int(chapter),`
[mangadex] fix extraction 6 years ago			`"chapter_minor": sep + minor,`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`"chapter_id": cdata["id"],`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"group" : [group["name"] for group in cdata["groups"]],`
[mangadex] unescape more metadata fields (fixes #1066) like 'manga', 'author', 'artist', etc. 4 years ago			`"date" : text.parse_timestamp(cdata["timestamp"]),`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"lang" : lang,`
			`"language": util.code_to_language(lang),`
			`"count" : len(cdata["pages"]),`
[mangadex] add chapter- and manga-extractor 7 years ago			`}`

[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`yield Message.Directory, data`
			`for data["page"], page in enumerate(cdata["pages"], 1):`
			`if fallback:`
			`data["_fallback"] = (fallback + page,)`
			`yield Message.Url, base + page, text.nameext_from_url(page, data)`
[mangadex] add chapter- and manga-extractor 7 years ago

[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`class MangadexMangaExtractor(MangadexExtractor):`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`"""Extractor for manga from mangadex.org"""`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`subcategory = "manga"`
			`categorytransfer = True`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`pattern = (r"(?:https?://)?(?:www\.)?mangadex\.(?:org\|cc)"`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`r"/(?:title\|manga)/(\d+)")`
			`test = (`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`("https://mangadex.org/manga/2946/souten-no-koumori", {`
			`"pattern": r"https://mangadex.org/chapter/\d+",`
[mangadex] transform 'date' timestamps to datetime objects 5 years ago			`"keyword": {`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"manga" : "Souten no Koumori",`
[mangadex] add chapter- and manga-extractor 7 years ago			`"manga_id": 2946,`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"title" : "re:One[Ss]hot",`
			`"volume" : 0,`
			`"chapter" : 0,`
[mangadex] general improvements - support >100 chapter entries per manga - custom archive ID format - detect non-existing chapters 7 years ago			`"chapter_minor": "",`
[mangadex] add chapter- and manga-extractor 7 years ago			`"chapter_id": int,`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"group" : list,`
			`"date" : "type:datetime",`
			`"lang" : str,`
[mangadex] add chapter- and manga-extractor 7 years ago			`"language": str,`
			`},`
			`}),`
[mangadex] revert domain to 'mangadex.org' 5 years ago			`("https://mangadex.cc/manga/13318/dagashi-kashi/chapters/2/", {`
[mangadex] fix manga extraction (closes #84) Chapter listings for manga now use https://mangadex.org/manga/<id>/_/chapters/2/ as URL instead of https://mangadex.org/manga/<id>/_//2/ 6 years ago			`"count": ">= 100",`
			`}),`
[mangadex] handle manga pages without chapters 6 years ago			`("https://mangadex.org/title/13004/yorumori-no-kuni-no-sora-ni", {`
			`"count": 0,`
			`}),`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`)`
[mangadex] fix extraction 6 years ago
			`def __init__(self, match):`
propagate 'match' to base extractor constructor 6 years ago			`MangadexExtractor.__init__(self, match)`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`self.manga_id = match.group(1)`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago
			`def items(self):`
			`yield Message.Version, 1`
			`for data in self.chapters():`
			`url = "{}/chapter/{}".format(self.root, data["chapter_id"])`
			`yield Message.Queue, url, data`

			`def chapters(self):`
			`"""Return a sorted list of chapter-metadata dicts"""`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`manga = self.manga_data(self.manga_id)`
[mangadex] add chapter- and manga-extractor 7 years ago			`results = []`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago
			`for cdata in self.manga_chapters(self.manga_id):`
			`chapter, sep, minor = cdata["chapter"].partition(".")`
			`lang = self.iso639_map.get(cdata["language"], cdata["language"])`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`results.append({`
[mangadex] unescape more metadata fields (fixes #1066) like 'manga', 'author', 'artist', etc. 4 years ago			`"manga" : text.unescape(manga["title"]),`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"manga_id": text.parse_int(self.manga_id),`
			`"artist" : manga["artist"],`
			`"author" : manga["author"],`
			`"title" : text.unescape(cdata["title"]),`
			`"volume" : text.parse_int(cdata["volume"]),`
[mangadex] unescape more metadata fields (fixes #1066) like 'manga', 'author', 'artist', etc. 4 years ago			`"chapter" : text.parse_int(chapter),`
[mangadex] fix extraction 6 years ago			`"chapter_minor": sep + minor,`
[mangadex] switch to API v2 https://mangadex.org/api/v2/ https://mangadex.org/thread/351011 4 years ago			`"chapter_id": text.parse_int(cdata["id"]),`
			`"group" : cdata["groups"],`
			`"date" : text.parse_timestamp(cdata["timestamp"]),`
[mangadex] unescape more metadata fields (fixes #1066) like 'manga', 'author', 'artist', etc. 4 years ago			`"lang" : lang,`
[mangadex] fix extraction 6 years ago			`"language": util.code_to_language(lang),`
provide type information for Queue messages Child extractors are now directly constructed with Extractor.from_url() if the extractor class is known beforehand, instead of using extractor.find() and searching through all possible extractor classes. 6 years ago			`"_extractor": MangadexChapterExtractor,`
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`})`
[mangadex] fix extraction 6 years ago
[mangadex] improve extraction - cache manga API results - add artist, author and date fields to chapter metadata - remove Manga-/ChapterExtractor inheritance - minor code simplifications and improvements 6 years ago			`results.sort(key=lambda x: (x["chapter"], x["chapter_minor"]))`
[mangadex] fix extraction 6 years ago			`return results`