gallery-dl/gallery_dl/extractor/booru.py

# -*- coding: utf-8 -*-

# Copyright 2015-2017 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Base classes for extractors for danbooru and co"""

from .common import Extractor, Message
from .. import text
import xml.etree.ElementTree as ET
import json
import urllib.parse


class BooruExtractor(Extractor):
    """Base class for all booru extractors"""
    info = {}
    headers = {}
    pagestart = 1
    pagekey = "page"
    api_url = ""
    category = ""

    def __init__(self):
        Extractor.__init__(self)
        self.params = {"limit": 50}
        self.setup()

    def items(self):
        yield Message.Version, 1
        yield Message.Directory, self.get_job_metadata()
        yield Message.Headers, self.headers
        for data in self.items_impl():
            try:
                url = self.get_file_url(data)
                data = self.get_file_metadata(data)
                yield Message.Url, url, data
            except KeyError:
                continue

    def skip(self, num):
        limit = self.params["limit"]
        pages = num // limit
        self.pagestart += pages
        return pages * limit

    def items_impl(self):
        pass

    def setup(self):
        pass

    def update_page(self, reset=False):
        """Update the value of the 'page' parameter"""
        # Override this method in derived classes if necessary.
        # It is usually enough to just adjust the 'page' attribute
        if reset is False:
            self.params[self.pagekey] += 1
        else:
            self.params[self.pagekey] = self.pagestart

    def get_job_metadata(self):
        """Collect metadata for extractor-job"""
        # Override this method in derived classes
        return {}

    def get_file_metadata(self, data):
        """Collect metadata for a downloadable file"""
        return text.nameext_from_url(self.get_file_url(data), data)

    def get_file_url(self, data):
        """Extract download-url from 'data'"""
        url = data["file_url"]
        if url.startswith("/"):
            url = urllib.parse.urljoin(self.api_url, url)
        return url


class JSONBooruExtractor(BooruExtractor):
    """Base class for JSON based API responses"""
    def items_impl(self):
        self.update_page(reset=True)
        while True:
            images = json.loads(
                self.request(self.api_url, params=self.params,
                             headers=self.headers).text
            )
            for data in images:
                yield data
            if len(images) < self.params["limit"]:
                return
            self.update_page()


class XMLBooruExtractor(BooruExtractor):
    """Base class for XML based API responses"""
    def items_impl(self):
        self.update_page(reset=True)
        while True:
            root = ET.fromstring(
                self.request(self.api_url, params=self.params).text
            )
            for item in root:
                yield item.attrib
            if len(root) < self.params["limit"]:
                return
            self.update_page()


class BooruTagExtractor(BooruExtractor):
    """Extractor for images based on search-tags"""
    directory_fmt = ["{category}", "{tags}"]
    filename_fmt = "{category}_{id}_{md5}.{extension}"

    def __init__(self, match):
        BooruExtractor.__init__(self)
        self.tags = text.unquote(match.group(1).replace("+", " "))
        self.params["tags"] = self.tags

    def get_job_metadata(self):
        return {"tags": self.tags}


class BooruPoolExtractor(BooruExtractor):
    """Extractor for image-pools"""
    directory_fmt = ["{category}", "pool", "{pool}"]
    filename_fmt = "{category}_{id}_{md5}.{extension}"

    def __init__(self, match):
        BooruExtractor.__init__(self)
        self.pool = match.group(1)
        self.params["tags"] = "pool:" + self.pool

    def get_job_metadata(self):
        return {"pool": self.pool}


class BooruPostExtractor(BooruExtractor):
    """Extractor for single images"""
    directory_fmt = ["{category}"]
    filename_fmt = "{category}_{id}_{md5}.{extension}"

    def __init__(self, match):
        BooruExtractor.__init__(self)
        self.post = match.group(1)
        self.params["tags"] = "id:" + self.post
move and update BooruExtractor classes 10 years ago			`# -- coding: utf-8 --`

[booru] simple skip functionality (#6) 8 years ago			`# Copyright 2015-2017 Mike Fährmann`
move and update BooruExtractor classes 10 years ago			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

			`"""Base classes for extractors for danbooru and co"""`

remove SequentialExtractor class 9 years ago			`from .common import Extractor, Message`
rewrite extractors to use text-module 9 years ago			`from .. import text`
move and update BooruExtractor classes 10 years ago			`import xml.etree.ElementTree as ET`
			`import json`
			`import urllib.parse`

code adjustments according to pep8 nr2 8 years ago
remove SequentialExtractor class 9 years ago			`class BooruExtractor(Extractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Base class for all booru extractors"""`
[danbooru] rewrite to use multiple extractors 9 years ago			`info = {}`
[3dbooru] update to new format 9 years ago			`headers = {}`
[booru] simple skip functionality (#6) 8 years ago			`pagestart = 1`
			`pagekey = "page"`
move and update BooruExtractor classes 10 years ago			`api_url = ""`
[3dbooru] update to new format 9 years ago			`category = ""`
move and update BooruExtractor classes 10 years ago
[danbooru] rewrite to use multiple extractors 9 years ago			`def __init__(self):`
remove SequentialExtractor class 9 years ago			`Extractor.__init__(self)`
[booru] add base classes for tag/pool/post extractors 9 years ago			`self.params = {"limit": 50}`
[gelbooru] update to new format 9 years ago			`self.setup()`
move and update BooruExtractor classes 10 years ago
			`def items(self):`
			`yield Message.Version, 1`
			`yield Message.Directory, self.get_job_metadata()`
add extractor '3dbooru' 10 years ago			`yield Message.Headers, self.headers`
move and update BooruExtractor classes 10 years ago			`for data in self.items_impl():`
[booru] skip images without 'file-url' attribute 9 years ago			`try:`
code adjustments according to pep8 nr2 8 years ago			`url = self.get_file_url(data)`
			`data = self.get_file_metadata(data)`
			`yield Message.Url, url, data`
[booru] skip images without 'file-url' attribute 9 years ago			`except KeyError:`
			`continue`
move and update BooruExtractor classes 10 years ago
[booru] simple skip functionality (#6) 8 years ago			`def skip(self, num):`
			`limit = self.params["limit"]`
			`pages = num // limit`
			`self.pagestart += pages`
			`return pages * limit`

move and update BooruExtractor classes 10 years ago			`def items_impl(self):`
			`pass`

[gelbooru] update to new format 9 years ago			`def setup(self):`
			`pass`

move and update BooruExtractor classes 10 years ago			`def update_page(self, reset=False):`
			`"""Update the value of the 'page' parameter"""`
			`# Override this method in derived classes if necessary.`
			`# It is usually enough to just adjust the 'page' attribute`
			`if reset is False:`
[booru] simple skip functionality (#6) 8 years ago			`self.params[self.pagekey] += 1`
move and update BooruExtractor classes 10 years ago			`else:`
[booru] simple skip functionality (#6) 8 years ago			`self.params[self.pagekey] = self.pagestart`
move and update BooruExtractor classes 10 years ago
			`def get_job_metadata(self):`
			`"""Collect metadata for extractor-job"""`
[danbooru] rewrite to use multiple extractors 9 years ago			`# Override this method in derived classes`
remove explicit (sub)category keywords 8 years ago			`return {}`
move and update BooruExtractor classes 10 years ago
			`def get_file_metadata(self, data):`
			`"""Collect metadata for a downloadable file"""`
code cleanup to use nameext_from_url 9 years ago			`return text.nameext_from_url(self.get_file_url(data), data)`
move and update BooruExtractor classes 10 years ago
			`def get_file_url(self, data):`
			`"""Extract download-url from 'data'"""`
			`url = data["file_url"]`
			`if url.startswith("/"):`
			`url = urllib.parse.urljoin(self.api_url, url)`
			`return url`


			`class JSONBooruExtractor(BooruExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Base class for JSON based API responses"""`
move and update BooruExtractor classes 10 years ago			`def items_impl(self):`
			`self.update_page(reset=True)`
			`while True:`
			`images = json.loads(`
code adjustments according to pep8 nr2 8 years ago			`self.request(self.api_url, params=self.params,`
add extractor '3dbooru' 10 years ago			`headers=self.headers).text`
move and update BooruExtractor classes 10 years ago			`)`
			`for data in images:`
			`yield data`
[booru] add base classes for tag/pool/post extractors 9 years ago			`if len(images) < self.params["limit"]:`
			`return`
move and update BooruExtractor classes 10 years ago			`self.update_page()`


			`class XMLBooruExtractor(BooruExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Base class for XML based API responses"""`
move and update BooruExtractor classes 10 years ago			`def items_impl(self):`
			`self.update_page(reset=True)`
			`while True:`
			`root = ET.fromstring(`
code adjustments according to pep8 nr2 8 years ago			`self.request(self.api_url, params=self.params).text`
move and update BooruExtractor classes 10 years ago			`)`
			`for item in root:`
			`yield item.attrib`
[booru] add base classes for tag/pool/post extractors 9 years ago			`if len(root) < self.params["limit"]:`
			`return`
move and update BooruExtractor classes 10 years ago			`self.update_page()`
[booru] add base classes for tag/pool/post extractors 9 years ago

			`class BooruTagExtractor(BooruExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Extractor for images based on search-tags"""`
[booru] add base classes for tag/pool/post extractors 9 years ago			`directory_fmt = ["{category}", "{tags}"]`
			`filename_fmt = "{category}_{id}_{md5}.{extension}"`

			`def __init__(self, match):`
			`BooruExtractor.__init__(self)`
[booru] fix issue with multiple tags 7 years ago			`self.tags = text.unquote(match.group(1).replace("+", " "))`
[booru] add base classes for tag/pool/post extractors 9 years ago			`self.params["tags"] = self.tags`

			`def get_job_metadata(self):`
remove explicit (sub)category keywords 8 years ago			`return {"tags": self.tags}`
[booru] add base classes for tag/pool/post extractors 9 years ago

			`class BooruPoolExtractor(BooruExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Extractor for image-pools"""`
[booru] add base classes for tag/pool/post extractors 9 years ago			`directory_fmt = ["{category}", "pool", "{pool}"]`
			`filename_fmt = "{category}_{id}_{md5}.{extension}"`

			`def __init__(self, match):`
			`BooruExtractor.__init__(self)`
			`self.pool = match.group(1)`
			`self.params["tags"] = "pool:" + self.pool`

			`def get_job_metadata(self):`
remove explicit (sub)category keywords 8 years ago			`return {"pool": self.pool}`
[booru] add base classes for tag/pool/post extractors 9 years ago

			`class BooruPostExtractor(BooruExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Extractor for single images"""`
[booru] add base classes for tag/pool/post extractors 9 years ago			`directory_fmt = ["{category}"]`
			`filename_fmt = "{category}_{id}_{md5}.{extension}"`

			`def __init__(self, match):`
			`BooruExtractor.__init__(self)`
			`self.post = match.group(1)`
			`self.params["tags"] = "id:" + self.post`