gallery-dl/gallery_dl/extractor/tumblr.py

# -*- coding: utf-8 -*-

# Copyright 2016-2017 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extract images from https://www.tumblr.com/"""

from .common import Extractor, Message
from .. import text, exception
from ..cache import memcache
import re


class TumblrExtractor(Extractor):
    """Base class for tumblr extractors"""
    category = "tumblr"
    directory_fmt = ["{category}", "{name}"]
    filename_fmt = "{category}_{blog[name]}_{id}{offset:?o//}.{extension}"

    def __init__(self, match):
        Extractor.__init__(self)
        self.user = match.group(1)
        self.api = TumblrAPI(self)

    def items(self):
        blog = self.api.info(self.user)
        yield Message.Version, 1
        yield Message.Directory, blog

        for post in self.posts():
            post["blog"] = blog
            post["offset"] = 0

            if "trail" in post:
                del post["trail"]

            if "photos" in post:
                photos = post["photos"]
                del post["photos"]

                for photo in photos:
                    photo.update(photo["original_size"])
                    photo["url"] = self._original_image(photo["url"])
                    del photo["original_size"]
                    del photo["alt_sizes"]
                    post["extension"] = photo["url"].rpartition(".")[2]
                    post["offset"] += 1
                    post["photo"] = photo
                    yield Message.Url, photo["url"], post

            if "audio_url" in post:  # type: "audio"
                post["extension"] = None
                post["offset"] += 1
                yield Message.Url, post["audio_url"], post

            if "video_url" in post:  # type: "video"
                url = post["video_url"]
                post["extension"] = url.rpartition(".")[2]
                post["offset"] += 1
                yield Message.Url, self._original_video(url), post

            if "description" in post:  # inline images
                for url in re.findall(r' src="([^"]+)"', post["description"]):
                    post["extension"] = url.rpartition(".")[2]
                    post["offset"] += 1
                    yield Message.Url, self._original_image(url), post

            if "permalink_url" in post:  # external video/audio
                yield Message.Queue, post["permalink_url"], post

            if "url" in post:  # type: "link"
                yield Message.Queue, post["url"], post

    def posts(self):
        """Return an iterable containing all relevant posts"""

    @staticmethod
    def _original_image(url):
        return re.sub(
            (r"https?://\d+\.media\.tumblr\.com"
             r"/([0-9a-f]+)/tumblr_([^/?&#.]+)_\d+\.([0-9a-z]+)"),
            r"http://data.tumblr.com/\1/tumblr_\2_raw.\3", url
        )

    @staticmethod
    def _original_video(url):
        return re.sub(
            (r"https?://vt\.media\.tumblr\.com"
             r"/tumblr_([^_]+)_\d+\.([0-9a-z]+)"),
            r"https://vt.media.tumblr.com/tumblr_\1.\2", url
        )


class TumblrUserExtractor(TumblrExtractor):
    """Extractor for all images from a tumblr-user"""
    subcategory = "user"
    pattern = [r"(?:https?://)?([^.]+)\.tumblr\.com(?:/page/\d+)?/?$"]
    test = [("http://demo.tumblr.com/", {
        "pattern": (r"https?://(?:$|"
                    r"\d+\.media\.tumblr\.com/tumblr_[^/_]+_1280\.jpg|"
                    r"w+\.tumblr\.com/audio_file/demo/\d+/tumblr_\w+)"),
        "count": 3,
    })]

    def posts(self):
        return self.api.posts(self.user, {})


class TumblrPostExtractor(TumblrExtractor):
    """Extractor for images from a single post on tumblr"""
    subcategory = "post"
    pattern = [r"(?:https?://)?([^.]+)\.tumblr\.com/post/(\d+)"]
    test = [("http://demo.tumblr.com/post/459265350", {
        "pattern": r"https://\d+\.media\.tumblr\.com/tumblr_[^/_]+_1280.jpg",
        "count": 1,
    })]

    def __init__(self, match):
        TumblrExtractor.__init__(self, match)
        self.post_id = match.group(2)

    def posts(self):
        return self.api.posts(self.user, {"id": self.post_id})


class TumblrTagExtractor(TumblrExtractor):
    """Extractor for images from a tumblr-user by tag"""
    subcategory = "tag"
    pattern = [r"(?:https?://)?([^.]+)\.tumblr\.com/tagged/(.+)"]
    test = [("http://demo.tumblr.com/tagged/Times%20Square", {
        "pattern": r"https://\d+\.media\.tumblr\.com/tumblr_[^/_]+_1280.jpg",
        "count": 1,
    })]

    def __init__(self, match):
        TumblrExtractor.__init__(self, match)
        self.tag = text.unquote(match.group(2))

    def posts(self):
        return self.api.posts(self.user, {"tag": self.tag})


class TumblrAPI():
    """Minimal interface for the Tumblr API v2"""
    API_KEY = "O3hU2tMi5e4Qs5t3vezEi6L0qRORJ5y9oUpSGsrWu8iA3UCc3B"

    def __init__(self, extractor):
        self.api_key = extractor.config("api-key", TumblrAPI.API_KEY)
        self.params = {"offset": 0, "limit": 50}
        self.extractor = extractor

    @memcache(keyarg=1)
    def info(self, blog):
        """Return general information about a blog"""
        return self._call(blog, "info", {})["blog"]

    def posts(self, blog, params):
        """Retrieve published posts"""
        params.update(self.params)
        return self._pagination(blog, "posts", params)

    def _call(self, blog, endpoint, params):
        params["api_key"] = self.api_key
        url = "https://api.tumblr.com/v2/blog/{}.tumblr.com/{}".format(
            blog, endpoint)

        response = self.extractor.request(
            url, params=params, fatal=False).json()
        if response["meta"]["status"] == 404:
            raise exception.NotFoundError("user")
        elif response["meta"]["status"] != 200:
            self.extractor.log.error(response)
            raise exception.StopExtraction()

        return response["response"]

    def _pagination(self, blog, endpoint, params):
        while True:
            data = self._call(blog, endpoint, params)
            yield from data["posts"]
            params["offset"] += params["limit"]
            if params["offset"] >= data["total_posts"]:
                return
[tumblr] add extractor 9 years ago			`# -- coding: utf-8 --`

[tumblr] keyword consistency 8 years ago			`# Copyright 2016-2017 Mike Fährmann`
[tumblr] add extractor 9 years ago			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

			`"""Extract images from https://www.tumblr.com/"""`

			`from .common import Extractor, Message`
[tumblr] use API v2 (#48) 7 years ago			`from .. import text, exception`
			`from ..cache import memcache`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`import re`
[tumblr] add extractor 9 years ago
code adjustments according to pep8 nr2 8 years ago
[tumblr] use API v2 (#48) 7 years ago			`class TumblrExtractor(Extractor):`
			`"""Base class for tumblr extractors"""`
[tumblr] add extractor 9 years ago			`category = "tumblr"`
[tumblr] use API v2 (#48) 7 years ago			`directory_fmt = ["{category}", "{name}"]`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`filename_fmt = "{category}_{blog[name]}_{id}{offset:?o//}.{extension}"`
[tumblr] add extractor 9 years ago
			`def __init__(self, match):`
			`Extractor.__init__(self)`
			`self.user = match.group(1)`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`self.api = TumblrAPI(self)`
[tumblr] add extractor 9 years ago
			`def items(self):`
[tumblr] use API v2 (#48) 7 years ago			`blog = self.api.info(self.user)`
[tumblr] add extractor 9 years ago			`yield Message.Version, 1`
[tumblr] use API v2 (#48) 7 years ago			`yield Message.Directory, blog`
[tumblr] add post-extractor 9 years ago
[tumblr] use API v2 (#48) 7 years ago			`for post in self.posts():`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`post["blog"] = blog`
[tumblr] original video URLs + continuous offset 7 years ago			`post["offset"] = 0`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago
			`if "trail" in post:`
			`del post["trail"]`

			`if "photos" in post:`
			`photos = post["photos"]`
			`del post["photos"]`

[tumblr] original video URLs + continuous offset 7 years ago			`for photo in photos:`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`photo.update(photo["original_size"])`
[tumblr] original video URLs + continuous offset 7 years ago			`photo["url"] = self._original_image(photo["url"])`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`del photo["original_size"]`
			`del photo["alt_sizes"]`
			`post["extension"] = photo["url"].rpartition(".")[2]`
[tumblr] original video URLs + continuous offset 7 years ago			`post["offset"] += 1`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`post["photo"] = photo`
			`yield Message.Url, photo["url"], post`

			`if "audio_url" in post: # type: "audio"`
			`post["extension"] = None`
[tumblr] original video URLs + continuous offset 7 years ago			`post["offset"] += 1`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`yield Message.Url, post["audio_url"], post`

			`if "video_url" in post: # type: "video"`
[tumblr] original video URLs + continuous offset 7 years ago			`url = post["video_url"]`
			`post["extension"] = url.rpartition(".")[2]`
			`post["offset"] += 1`
			`yield Message.Url, self._original_video(url), post`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago
[tumblr] original video URLs + continuous offset 7 years ago			`if "description" in post: # inline images`
			`for url in re.findall(r' src="([^"]+)"', post["description"]):`
			`post["extension"] = url.rpartition(".")[2]`
			`post["offset"] += 1`
			`yield Message.Url, self._original_image(url), post`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago
			`if "permalink_url" in post: # external video/audio`
			`yield Message.Queue, post["permalink_url"], post`

			`if "url" in post: # type: "link"`
			`yield Message.Queue, post["url"], post`
[tumblr] use API v2 (#48) 7 years ago
			`def posts(self):`
			`"""Return an iterable containing all relevant posts"""`

[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`@staticmethod`
[tumblr] original video URLs + continuous offset 7 years ago			`def _original_image(url):`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`return re.sub(`
[tumblr] original video URLs + continuous offset 7 years ago			`(r"https?://\d+\.media\.tumblr\.com"`
			`r"/([0-9a-f]+)/tumblr_([^/?&#.]+)_\d+\.([0-9a-z]+)"),`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`r"http://data.tumblr.com/\1/tumblr_\2_raw.\3", url`
			`)`

[tumblr] original video URLs + continuous offset 7 years ago			`@staticmethod`
			`def _original_video(url):`
			`return re.sub(`
			`(r"https?://vt\.media\.tumblr\.com"`
			`r"/tumblr_([^_]+)_\d+\.([0-9a-z]+)"),`
			`r"https://vt.media.tumblr.com/tumblr_\1.\2", url`
			`)`

[tumblr] use API v2 (#48) 7 years ago
			`class TumblrUserExtractor(TumblrExtractor):`
			`"""Extractor for all images from a tumblr-user"""`
			`subcategory = "user"`
			`pattern = [r"(?:https?://)?([^.]+)\.tumblr\.com(?:/page/\d+)?/?$"]`
			`test = [("http://demo.tumblr.com/", {`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`"pattern": (r"https?://(?:$\|"`
			`r"\d+\.media\.tumblr\.com/tumblr_[^/_]+_1280\.jpg\|"`
			`r"w+\.tumblr\.com/audio_file/demo/\d+/tumblr_\w+)"),`
			`"count": 3,`
[tumblr] use API v2 (#48) 7 years ago			`})]`

			`def posts(self):`
			`return self.api.posts(self.user, {})`


			`class TumblrPostExtractor(TumblrExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Extractor for images from a single post on tumblr"""`
[tumblr] add post-extractor 9 years ago			`subcategory = "post"`
			`pattern = [r"(?:https?://)?([^.]+)\.tumblr\.com/post/(\d+)"]`
			`test = [("http://demo.tumblr.com/post/459265350", {`
[tumblr] use API v2 (#48) 7 years ago			`"pattern": r"https://\d+\.media\.tumblr\.com/tumblr_[^/_]+_1280.jpg",`
[tumblr] update tests 7 years ago			`"count": 1,`
[tumblr] add post-extractor 9 years ago			`})]`

			`def __init__(self, match):`
[tumblr] use API v2 (#48) 7 years ago			`TumblrExtractor.__init__(self, match)`
			`self.post_id = match.group(2)`
[tumblr] add tag-extractor 9 years ago
[tumblr] use API v2 (#48) 7 years ago			`def posts(self):`
			`return self.api.posts(self.user, {"id": self.post_id})`
[tumblr] add tag-extractor 9 years ago
[tumblr] use API v2 (#48) 7 years ago
			`class TumblrTagExtractor(TumblrExtractor):`
consistent extractor naming scheme + docstrings 8 years ago			`"""Extractor for images from a tumblr-user by tag"""`
[tumblr] add tag-extractor 9 years ago			`subcategory = "tag"`
			`pattern = [r"(?:https?://)?([^.]+)\.tumblr\.com/tagged/(.+)"]`
replace space characters in unit test URLs 7 years ago			`test = [("http://demo.tumblr.com/tagged/Times%20Square", {`
[tumblr] use API v2 (#48) 7 years ago			`"pattern": r"https://\d+\.media\.tumblr\.com/tumblr_[^/_]+_1280.jpg",`
[tumblr] update tests 7 years ago			`"count": 1,`
[tumblr] add tag-extractor 9 years ago			`})]`

			`def __init__(self, match):`
[tumblr] use API v2 (#48) 7 years ago			`TumblrExtractor.__init__(self, match)`
			`self.tag = text.unquote(match.group(2))`

			`def posts(self):`
			`return self.api.posts(self.user, {"tag": self.tag})`


			`class TumblrAPI():`
			`"""Minimal interface for the Tumblr API v2"""`
			`API_KEY = "O3hU2tMi5e4Qs5t3vezEi6L0qRORJ5y9oUpSGsrWu8iA3UCc3B"`

[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`def __init__(self, extractor):`
[tumblr] use API v2 (#48) 7 years ago			`self.api_key = extractor.config("api-key", TumblrAPI.API_KEY)`
[tumblr] support more post/media types (#48) This adds support for audio and video posts (most videos are shared from youtube/instagram which isn't supported -> youtube-dl), as well as link posts and image-search inside of text posts. Most of this is just WIP and will need some sort of improvement and options to enable/disable different media types etc. 7 years ago			`self.params = {"offset": 0, "limit": 50}`
[tumblr] use API v2 (#48) 7 years ago			`self.extractor = extractor`

			`@memcache(keyarg=1)`
			`def info(self, blog):`
			`"""Return general information about a blog"""`
			`return self._call(blog, "info", {})["blog"]`

			`def posts(self, blog, params):`
			`"""Retrieve published posts"""`
			`params.update(self.params)`
			`return self._pagination(blog, "posts", params)`

			`def _call(self, blog, endpoint, params):`
			`params["api_key"] = self.api_key`
			`url = "https://api.tumblr.com/v2/blog/{}.tumblr.com/{}".format(`
			`blog, endpoint)`

			`response = self.extractor.request(`
			`url, params=params, fatal=False).json()`
			`if response["meta"]["status"] == 404:`
			`raise exception.NotFoundError("user")`
			`elif response["meta"]["status"] != 200:`
			`self.extractor.log.error(response)`
			`raise exception.StopExtraction()`

			`return response["response"]`

			`def _pagination(self, blog, endpoint, params):`
			`while True:`
			`data = self._call(blog, endpoint, params)`
			`yield from data["posts"]`
			`params["offset"] += params["limit"]`
			`if params["offset"] >= data["total_posts"]:`
			`return`