gallery-dl/gallery_dl/extractor/mangareader.py

# -*- coding: utf-8 -*-

# Copyright 2015-2020 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extractors for https://www.mangareader.net/"""

from .common import ChapterExtractor, MangaExtractor
from .. import text
from ..cache import memcache
import json


class MangareaderBase():
    """Base class for mangareader extractors"""
    category = "mangareader"
    root = "https://www.mangareader.net"

    @memcache(keyarg=1)
    def _manga_info(self, path, page=None):
        if not page:
            page = self.request(self.root + path).text
        extr = text.extract_from(page)
        data = {
            "manga"   : text.unescape(extr('class="name">', '<')),
            "release" : text.unescape(extr('Year of Release :</td><td>', '<')),
            "author"  : text.unescape(text.unescape(extr(
                'Author :</td><td>', '<'))),
            "artist"  : text.unescape(text.unescape(extr(
                'Artist :</td><td>', '<'))),
            "lang"    : "en",
            "language": "English",
        }

        extr('<table', '>')
        chapters = []
        while True:
            url = extr('</i> <a href="', '"')
            if not url:
                return chapters
            chapter = {
                "chapter": text.parse_int(url.rpartition("/")[2]),
                "title"  : text.unescape(extr("</a> : ", "<")),
                "date"   : extr("<td>", "<"),
            }
            chapter.update(data)
            chapters.append((self.root + url, chapter))


class MangareaderChapterExtractor(MangareaderBase, ChapterExtractor):
    """Extractor for manga-chapters from mangareader.net"""
    archive_fmt = "{manga}_{chapter}_{page}"
    pattern = r"(?:https?://)?(?:www\.)?mangareader\.net((/[^/?#]+)/(\d+))"
    test = (("https://www.mangareader.net"
             "/karate-shoukoushi-kohinata-minoru/11"), {
        "url": "45ece5668d1e9f65cf2225237d78de58660b54e4",
        "keyword": "133e3e2f7c0529a35bbb16149e34c40546f8dfd6",
    })

    def __init__(self, match):
        ChapterExtractor.__init__(self, match)
        _, self.path, self.chapter = match.groups()

    def metadata(self, page):
        chapter = text.parse_int(self.chapter)
        return self._manga_info(self.path)[chapter-1][1]

    def images(self, page):
        data = json.loads(text.extract(
            page, 'document["mj"]=', '</script>')[0])
        return [
            (text.ensure_http_scheme(img["u"]), {
                "width" : text.parse_int(img["w"]),
                "height": text.parse_int(img["h"]),
            })
            for img in data["im"]
        ]


class MangareaderMangaExtractor(MangareaderBase, MangaExtractor):
    """Extractor for manga from mangareader.net"""
    chapterclass = MangareaderChapterExtractor
    reverse = False
    pattern = r"(?:https?://)?(?:www\.)?mangareader\.net(/[^/?#]+)/?$"
    test = ("https://www.mangareader.net/mushishi", {
        "url": "bc203b858b4ad76e5d77e39118a7be0350e357da",
        "keyword": "031b3ea085921c552de017ecbb9b906e462229c9",
    })

    def chapters(self, page):
        path = self.manga_url[len(self.root):]
        return self._manga_info(path, page)
[mangareader] add extractor 9 years ago			`# -- coding: utf-8 --`

update extractor test results 5 years ago			`# Copyright 2015-2020 Mike Fährmann`
[mangareader] add extractor 9 years ago			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

[mangareader] fix extraction 4 years ago			`"""Extractors for https://www.mangareader.net/"""`
[mangareader] add extractor 9 years ago
use generic chapter-extractor in more modules 7 years ago			`from .common import ChapterExtractor, MangaExtractor`
rename safe_int to parse_int; move parse_* to text module 7 years ago			`from .. import text`
[mangareader] fix extraction 4 years ago			`from ..cache import memcache`
			`import json`
[mangareader] add extractor 9 years ago
code adjustments according to pep8 nr2 8 years ago
consistent extractor naming scheme + docstrings 8 years ago			`class MangareaderBase():`
docstrings 9 years ago			`"""Base class for mangareader extractors"""`
[mangareader] add manga-extractor (all chapters) 9 years ago			`category = "mangareader"`
[mangareader] use 'https://' The site now redirects from http://mangareader.net/ to https://mangareader.net/ 7 years ago			`root = "https://www.mangareader.net"`
[mangareader] add manga-extractor (all chapters) 9 years ago
[mangareader] fix extraction 4 years ago			`@memcache(keyarg=1)`
			`def _manga_info(self, path, page=None):`
			`if not page:`
			`page = self.request(self.root + path).text`
			`extr = text.extract_from(page)`
			`data = {`
			`"manga" : text.unescape(extr('class="name">', '<')),`
			`"release" : text.unescape(extr('Year of Release :</td><td>', '<')),`
			`"author" : text.unescape(text.unescape(extr(`
			`'Author :</td><td>', '<'))),`
			`"artist" : text.unescape(text.unescape(extr(`
			`'Artist :</td><td>', '<'))),`
			`"lang" : "en",`
			`"language": "English",`
			`}`

			`extr('<table', '>')`
			`chapters = []`
			`while True:`
			`url = extr('</i> <a href="', '"')`
			`if not url:`
			`return chapters`
			`chapter = {`
			`"chapter": text.parse_int(url.rpartition("/")[2]),`
			`"title" : text.unescape(extr("</a> : ", "<")),`
			`"date" : extr("<td>", "<"),`
			`}`
			`chapter.update(data)`
			`chapters.append((self.root + url, chapter))`
[mangareader] extract manga metadata 7 years ago
[mangareader] unify extractor metadata in base class 9 years ago
use generic chapter-extractor in more modules 7 years ago			`class MangareaderChapterExtractor(MangareaderBase, ChapterExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Extractor for manga-chapters from mangareader.net"""`
set 'archive_fmt' values These are going to be used to create an unique id for each image. 7 years ago			`archive_fmt = "{manga}_{chapter}_{page}"`
remove '&' from URL patterns '/?&#' -> '/?#' and '?&#' -> '?#' According to https://www.ietf.org/rfc/rfc3986.txt, URLs are "organized hierarchically" by using "the slash ("/"), question mark ("?"), and number sign ("#") characters to delimit components" 4 years ago			`pattern = r"(?:https?://)?(?:www\.)?mangareader\.net((/[^/?#]+)/(\d+))"`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`test = (("https://www.mangareader.net"`
			`"/karate-shoukoushi-kohinata-minoru/11"), {`
[mangareader] fix extraction 4 years ago			`"url": "45ece5668d1e9f65cf2225237d78de58660b54e4",`
change results of text.nameext_from_url() Instead of getting a complete 'filename' from an URL and splitting that into 'name' and 'extension', the new approach gets rid of the complete version and renames 'name' to 'filename'. (Using anything other than {extension} for a filename extension doesn't really work anyway) Example: "https://example.org/path/filename.ext" before: - filename : filename.ext - name : filename - extension: ext now: - filename : filename - extension: ext 6 years ago			`"keyword": "133e3e2f7c0529a35bbb16149e34c40546f8dfd6",`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 6 years ago			`})`
[mangareader] add extractor 9 years ago
rewrite extractors to use config-module 9 years ago			`def __init__(self, match):`
[mangareader] fix extraction 4 years ago			`ChapterExtractor.__init__(self, match)`
			`_, self.path, self.chapter = match.groups()`
[mangareader] add extractor 9 years ago
[mangareader] fix extraction 4 years ago			`def metadata(self, page):`
			`chapter = text.parse_int(self.chapter)`
			`return self._manga_info(self.path)[chapter-1][1]`
[mangareader] rewrite 9 years ago
change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 6 years ago			`def images(self, page):`
[mangareader] fix extraction 4 years ago			`data = json.loads(text.extract(`
			`page, 'document["mj"]=', '</script>')[0])`
			`return [`
			`(text.ensure_http_scheme(img["u"]), {`
			`"width" : text.parse_int(img["w"]),`
			`"height": text.parse_int(img["h"]),`
			`})`
			`for img in data["im"]`
			`]`
change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 6 years ago

			`class MangareaderMangaExtractor(MangareaderBase, MangaExtractor):`
			`"""Extractor for manga from mangareader.net"""`
add '_extractor' info to manga extractor results 6 years ago			`chapterclass = MangareaderChapterExtractor`
change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 6 years ago			`reverse = False`
remove '&' from URL patterns '/?&#' -> '/?#' and '?&#' -> '?#' According to https://www.ietf.org/rfc/rfc3986.txt, URLs are "organized hierarchically" by using "the slash ("/"), question mark ("?"), and number sign ("#") characters to delimit components" 4 years ago			`pattern = r"(?:https?://)?(?:www\.)?mangareader\.net(/[^/?#]+)/?$"`
change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 6 years ago			`test = ("https://www.mangareader.net/mushishi", {`
			`"url": "bc203b858b4ad76e5d77e39118a7be0350e357da",`
			`"keyword": "031b3ea085921c552de017ecbb9b906e462229c9",`
			`})`

			`def chapters(self, page):`
[mangareader] fix extraction 4 years ago			`path = self.manga_url[len(self.root):]`
			`return self._manga_info(path, page)`