platypush/platypush/backend/http/request/rss/__init__.py

import datetime
import enum
import feedparser
import os
import requests
import time

from sqlalchemy import create_engine, Column, Integer, String, DateTime, \
    Enum, UniqueConstraint, ForeignKey

from sqlalchemy.orm import sessionmaker, scoped_session
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.sql.expression import func

from platypush.backend.http.request import HttpRequest
from platypush.config import Config
from platypush.message.event.http.rss import NewFeedEvent

Base = declarative_base()
Session = scoped_session(sessionmaker())


class RssUpdates(HttpRequest):
    """ Gets new items in an RSS feed """

    dbfile = os.path.join(workdir, 'rss.db')
    user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'

    def __init__(self, url, title=None, headers=None, params=None, max_entries=None,
                 mercury_api_key=None, digest_format=None, *argv, **kwargs):
        self.workdir = os.path.join(os.path.expanduser(Config.get('workdir')), 'feeds')
        self.url = url
        self.title = title
        self.max_entries = max_entries
        self.mercury_api_key = mercury_api_key  # Mercury Reader API used to parse the content of the link
        self.digest_format = digest_format.lower() if digest_format else None  # Supported formats: html, pdf

        os.makedirs(os.path.expanduser(os.path.dirname(self.dbfile)), exist_ok=True)

        if headers is None: headers = {}
        headers['User-Agent'] = self.user_agent

        request_args = {
            'method': 'get',
            'url': self.url,
            'headers': headers,
            'params': params or {},
        }

        super().__init__(skip_first_call=False, args=request_args, *argv, **kwargs)

    def _get_or_create_source(self, session):
        record = session.query(FeedSource).filter_by(url=self.url).first()
        if record is None:
            record = FeedSource(url=self.url, title=self.title)
            session.add(record)

        session.commit()
        return record


    def _get_latest_update(self, session, source_id):
        return session.query(func.max(FeedEntry.published)).filter_by(source_id=source_id).scalar()


    def _parse_entry_content(self, link):
        response = None
        err = None
        n_tries = 5

        for _ in range(0, n_tries):
            try:
                self.logger.info('Parsing content for {}'.format(link))
                response = requests.get('https://mercury.postlight.com/parser',
                                        params = {'url': link},
                                        headers = {'x-api-key': self.mercury_api_key })
            except Exception as e:
                err = e

            if response.text:
                err = None
                break
            else:
                time.sleep(1)

        if err:
            raise err

        if not response.text:
            raise RuntimeError("No response from Mercury API for URL {} after {} tries"
                               .format(link, n_tries))

        return response.json()['content'] if response and response.ok else None


    def get_new_items(self, response):
        engine = create_engine('sqlite:///{}'.format(self.dbfile),
                               connect_args = { 'check_same_thread': False })

        Base.metadata.create_all(engine)
        Session.configure(bind=engine)
        self._get_or_create_source(session=Session())

        feed = feedparser.parse(response.text)
        session = Session()
        source_record = self._get_or_create_source(session=session)
        session.add(source_record)
        parse_start_time = datetime.datetime.utcnow()
        entries = []
        latest_update = self._get_latest_update(session, source_record.id)

        if not self.title and 'title' in feed.feed:
            self.title = feed.feed['title']
            source_record.title = self.title

        digest = u'''
            <h1 style="margin-top: 30px">{}</h1>
            <h2 style="margin-top: 10px; page-break-after: always">
                Feeds digest generated on {} </h2>'''.format(self.title,
                datetime.datetime.now().strftime('%d %B %Y, %H:%M')
            )

        self.logger.info('Parsed {:d} items from RSS feed <{}>'
                     .format(len(feed.entries), self.url))

        for entry in feed.entries:
            if not entry.published_parsed:
                continue

            try:
                entry_timestamp = datetime.datetime(*entry.published_parsed[:6])

                if latest_update is None \
                        or entry_timestamp > latest_update:
                    self.logger.info('Processed new item from RSS feed <{}>'.format(self.url))
                    entry.summary = entry.summary if hasattr(entry, 'summary') else None

                    if self.mercury_api_key:
                        entry.content = self._parse_entry_content(entry.link)
                    elif hasattr(entry, 'summary'):
                        entry.content = entry.summary
                    else:
                        entry.content = None

                    digest += '<h1 style="page-break-before: always">{}</h1>{}' \
                        .format(entry.title, entry.content)

                    e = {
                        'entry_id': entry.id,
                        'title': entry.title,
                        'link': entry.link,
                        'summary': entry.summary,
                        'content': entry.content,
                        'source_id': source_record.id,
                        'published': entry_timestamp,
                    }

                    entries.append(e)
                    session.add(FeedEntry(**e))
                    if self.max_entries and len(entries) > self.max_entries: break
            except Exception as e:
                self.logger.warning('Exception encountered while parsing RSS ' +
                                    'RSS feed {}: {}'.format(self.url, str(e)))

        source_record.last_updated_at = parse_start_time
        digest_filename = None

        if entries:
            self.logger.info('Parsed {} new entries from the RSS feed {}'.format(
                len(entries), self.title))

            if self.digest_format:
                digest_filename = os.path.join(self.workdir, 'cache', '{}_{}.{}'.format(
                    datetime.datetime.now().strftime('%Y-%m-%dT%H:%M:%S'),
                    self.title, self.digest_format))

                os.makedirs(os.path.dirname(digest_filename), exist_ok=True)

                if self.digest_format == 'html':
                    with open(digest_filename, 'w', encoding='utf-8') as f:
                        f.write(digest)
                elif self.digest_format == 'pdf':
                    import weasyprint
                    weasyprint.HTML(string=digest).write_pdf(digest_filename)
                else:
                    raise RuntimeError('Unsupported format: {}. Supported formats: ' +
                                    'html or pdf'.format(self.digest_format))

                digest_entry = FeedDigest(source_id=source_record.id,
                                        format=self.digest_format,
                                        filename=digest_filename)

                session.add(digest_entry)
                self.logger.info('{} digest ready: {}'.format(self.digest_format, digest_filename))

        session.commit()
        self.logger.info('Parsing RSS feed {}: completed'.format(self.title))

        return NewFeedEvent(request=dict(self), response=entries,
                            source_id=source_record.id, title=self.title,
                            digest_format=self.digest_format,
                            digest_filename=digest_filename)


class FeedSource(Base):
    """ Models the FeedSource table, containing RSS sources to be parsed """

    __tablename__ = 'FeedSource'
    __table_args__ = ({ 'sqlite_autoincrement': True })

    id = Column(Integer, primary_key=True)
    title = Column(String)
    url = Column(String, unique=True)
    last_updated_at = Column(DateTime)


class FeedEntry(Base):
    """ Models the FeedEntry table, which contains RSS entries """

    __tablename__ = 'FeedEntry'
    __table_args__ = ({ 'sqlite_autoincrement': True })

    id = Column(Integer, primary_key=True)
    entry_id = Column(String)
    source_id = Column(Integer, ForeignKey('FeedSource.id'), nullable=False)
    title = Column(String)
    link = Column(String)
    summary = Column(String)
    content = Column(String)
    published = Column(DateTime)


class FeedDigest(Base):
    """ Models the FeedDigest table, containing feed digests either in HTML
        or PDF format """

    class DigestFormat(enum.Enum):
        html = 1
        pdf = 2

    __tablename__ = 'FeedDigest'
    __table_args__ = ({ 'sqlite_autoincrement': True })

    id = Column(Integer, primary_key=True)
    source_id = Column(Integer, ForeignKey('FeedSource.id'), nullable=False)
    format = Column(Enum(DigestFormat), nullable=False)
    filename = Column(String, nullable=False)
    created_at = Column(DateTime, nullable=False, default=datetime.datetime.utcnow)


# vim:sw=4:ts=4:et:
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`import datetime`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`import enum`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`import feedparser`
			`import os`
			`import requests`
			`import time`

			`from sqlalchemy import create_engine, Column, Integer, String, DateTime, \`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`Enum, UniqueConstraint, ForeignKey`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
			`from sqlalchemy.orm import sessionmaker, scoped_session`
			`from sqlalchemy.ext.declarative import declarative_base`
A more robust logic for spotting new RSS items 2018-05-01 10:13:37 +02:00			`from sqlalchemy.sql.expression import func`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
			`from platypush.backend.http.request import HttpRequest`
			`from platypush.config import Config`
			`from platypush.message.event.http.rss import NewFeedEvent`

			`Base = declarative_base()`
			`Session = scoped_session(sessionmaker())`


Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`class RssUpdates(HttpRequest):`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`""" Gets new items in an RSS feed """`

Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`dbfile = os.path.join(workdir, 'rss.db')`
			`user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`def __init__(self, url, title=None, headers=None, params=None, max_entries=None,`
Declared logger attribute in HttpRequest as it won't be available to the subclasses otherwise 2018-06-08 16:54:15 +02:00			`mercury_api_key=None, digest_format=None, argv, *kwargs):`
Fixes for readthedocs build 2019-07-16 22:38:42 +02:00			`self.workdir = os.path.join(os.path.expanduser(Config.get('workdir')), 'feeds')`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`self.url = url`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`self.title = title`
			`self.max_entries = max_entries`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`self.mercury_api_key = mercury_api_key # Mercury Reader API used to parse the content of the link`
RSS digests are now optional 2018-05-07 19:44:34 +02:00			`self.digest_format = digest_format.lower() if digest_format else None # Supported formats: html, pdf`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
mkdir_p replaced with os.makedirs 2018-01-27 13:54:15 +01:00			`os.makedirs(os.path.expanduser(os.path.dirname(self.dbfile)), exist_ok=True)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`if headers is None: headers = {}`
			`headers['User-Agent'] = self.user_agent`

Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`request_args = {`
			`'method': 'get',`
			`'url': self.url,`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`'headers': headers,`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`'params': params or {},`
			`}`

Declared logger attribute in HttpRequest as it won't be available to the subclasses otherwise 2018-06-08 16:54:15 +02:00			`super().__init__(skip_first_call=False, args=request_args, argv, *kwargs)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
			`def _get_or_create_source(self, session):`
			`record = session.query(FeedSource).filter_by(url=self.url).first()`
			`if record is None:`
A more robust logic for spotting new RSS items 2018-05-01 10:13:37 +02:00			`record = FeedSource(url=self.url, title=self.title)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`session.add(record)`

			`session.commit()`
			`return record`


A more robust logic for spotting new RSS items 2018-05-01 10:13:37 +02:00			`def _get_latest_update(self, session, source_id):`
			`return session.query(func.max(FeedEntry.published)).filter_by(source_id=source_id).scalar()`


Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`def _parse_entry_content(self, link):`
			`response = None`
Retry logic for Mercury API 2018-08-19 23:51:59 +02:00			`err = None`
			`n_tries = 5`

			`for _ in range(0, n_tries):`
			`try:`
			`self.logger.info('Parsing content for {}'.format(link))`
			`response = requests.get('https://mercury.postlight.com/parser',`
			`params = {'url': link},`
			`headers = {'x-api-key': self.mercury_api_key })`
			`except Exception as e:`
			`err = e`

			`if response.text:`
			`err = None`
			`break`
			`else:`
			`time.sleep(1)`

			`if err:`
			`raise err`

			`if not response.text:`
			`raise RuntimeError("No response from Mercury API for URL {} after {} tries"`
			`.format(link, n_tries))`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
			`return response.json()['content'] if response and response.ok else None`


			`def get_new_items(self, response):`
- Importing Flask.request as http_request to prevent name clashes with SQLAlchemy's request module - All SQLAlchemy engine and connection setup done within get_new_items to prevent different threads from creating and using the db instance - Added check_same_thread to sqlite connection line to prevent different-thread exceptions when the Flask main thread does some cleanup 2018-04-28 19:11:14 +02:00			`engine = create_engine('sqlite:///{}'.format(self.dbfile),`
			`connect_args = { 'check_same_thread': False })`

			`Base.metadata.create_all(engine)`
			`Session.configure(bind=engine)`
			`self._get_or_create_source(session=Session())`

Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`feed = feedparser.parse(response.text)`
			`session = Session()`
			`source_record = self._get_or_create_source(session=session)`
			`session.add(source_record)`
			`parse_start_time = datetime.datetime.utcnow()`
			`entries = []`
A more robust logic for spotting new RSS items 2018-05-01 10:13:37 +02:00			`latest_update = self._get_latest_update(session, source_record.id)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`if not self.title and 'title' in feed.feed:`
			`self.title = feed.feed['title']`
			`source_record.title = self.title`

			`digest = u'''`
			`<h1 style="margin-top: 30px">{}</h1>`
			`<h2 style="margin-top: 10px; page-break-after: always">`
			`Feeds digest generated on {} </h2>'''.format(self.title,`
			`datetime.datetime.now().strftime('%d %B %Y, %H:%M')`
			`)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
Refactored logging submodule 2018-06-06 20:09:18 +02:00			`self.logger.info('Parsed {:d} items from RSS feed <{}>'`
- Importing Flask.request as http_request to prevent name clashes with SQLAlchemy's request module - All SQLAlchemy engine and connection setup done within get_new_items to prevent different threads from creating and using the db instance - Added check_same_thread to sqlite connection line to prevent different-thread exceptions when the Flask main thread does some cleanup 2018-04-28 19:11:14 +02:00			`.format(len(feed.entries), self.url))`

Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`for entry in feed.entries:`
Skip RSS items if published_parsed is not defined 2018-05-07 18:33:44 +02:00			`if not entry.published_parsed:`
			`continue`

Wrapped the RSS parsing loop in a try-except block to prevent the backend from continuously crashing if there are encoding issues on the RSS titles 2018-10-21 14:47:52 +02:00			`try:`
			`entry_timestamp = datetime.datetime(*entry.published_parsed[:6])`

			`if latest_update is None \`
			`or entry_timestamp > latest_update:`
Removed title from logging trace in RSS backend 2018-10-23 00:23:47 +02:00			`self.logger.info('Processed new item from RSS feed <{}>'.format(self.url))`
Wrapped the RSS parsing loop in a try-except block to prevent the backend from continuously crashing if there are encoding issues on the RSS titles 2018-10-21 14:47:52 +02:00			`entry.summary = entry.summary if hasattr(entry, 'summary') else None`

			`if self.mercury_api_key:`
			`entry.content = self._parse_entry_content(entry.link)`
			`elif hasattr(entry, 'summary'):`
			`entry.content = entry.summary`
			`else:`
			`entry.content = None`

			`digest += '<h1 style="page-break-before: always">{}</h1>{}' \`
			`.format(entry.title, entry.content)`

			`e = {`
			`'entry_id': entry.id,`
			`'title': entry.title,`
			`'link': entry.link,`
			`'summary': entry.summary,`
			`'content': entry.content,`
			`'source_id': source_record.id,`
			`'published': entry_timestamp,`
			`}`

			`entries.append(e)`
			`session.add(FeedEntry(**e))`
			`if self.max_entries and len(entries) > self.max_entries: break`
			`except Exception as e:`
			`self.logger.warning('Exception encountered while parsing RSS ' +`
			`'RSS feed {}: {}'.format(self.url, str(e)))`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
			`source_record.last_updated_at = parse_start_time`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`digest_filename = None`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
			`if entries:`
Refactored logging submodule 2018-06-06 20:09:18 +02:00			`self.logger.info('Parsed {} new entries from the RSS feed {}'.format(`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`len(entries), self.title))`

RSS digests are now optional 2018-05-07 19:44:34 +02:00			`if self.digest_format:`
			`digest_filename = os.path.join(self.workdir, 'cache', '{}_{}.{}'.format(`
			`datetime.datetime.now().strftime('%Y-%m-%dT%H:%M:%S'),`
			`self.title, self.digest_format))`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00
RSS digests are now optional 2018-05-07 19:44:34 +02:00			`os.makedirs(os.path.dirname(digest_filename), exist_ok=True)`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00
RSS digests are now optional 2018-05-07 19:44:34 +02:00			`if self.digest_format == 'html':`
			`with open(digest_filename, 'w', encoding='utf-8') as f:`
			`f.write(digest)`
			`elif self.digest_format == 'pdf':`
			`import weasyprint`
			`weasyprint.HTML(string=digest).write_pdf(digest_filename)`
			`else:`
			`raise RuntimeError('Unsupported format: {}. Supported formats: ' +`
			`'html or pdf'.format(self.digest_format))`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00
RSS digests are now optional 2018-05-07 19:44:34 +02:00			`digest_entry = FeedDigest(source_id=source_record.id,`
			`format=self.digest_format,`
			`filename=digest_filename)`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00
RSS digests are now optional 2018-05-07 19:44:34 +02:00			`session.add(digest_entry)`
Refactored logging submodule 2018-06-06 20:09:18 +02:00			`self.logger.info('{} digest ready: {}'.format(self.digest_format, digest_filename))`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00
			`session.commit()`
Refactored logging submodule 2018-06-06 20:09:18 +02:00			`self.logger.info('Parsing RSS feed {}: completed'.format(self.title))`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`return NewFeedEvent(request=dict(self), response=entries,`
			`source_id=source_record.id, title=self.title,`
			`digest_format=self.digest_format,`
			`digest_filename=digest_filename)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00

			`class FeedSource(Base):`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`""" Models the FeedSource table, containing RSS sources to be parsed """`

Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`__tablename__ = 'FeedSource'`
			`__table_args__ = ({ 'sqlite_autoincrement': True })`

			`id = Column(Integer, primary_key=True)`
			`title = Column(String)`
			`url = Column(String, unique=True)`
			`last_updated_at = Column(DateTime)`


			`class FeedEntry(Base):`
Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`""" Models the FeedEntry table, which contains RSS entries """`

Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`__tablename__ = 'FeedEntry'`
			`__table_args__ = ({ 'sqlite_autoincrement': True })`

			`id = Column(Integer, primary_key=True)`
			`entry_id = Column(String)`
			`source_id = Column(Integer, ForeignKey('FeedSource.id'), nullable=False)`
			`title = Column(String)`
			`link = Column(String)`
- Added rss-news dashboard widget - Added summary field to the RSS entry - Added support for custom dashboard backgrounds - UX fixes + font change 2018-05-05 23:59:43 +02:00			`summary = Column(String)`
Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`content = Column(String)`
			`published = Column(DateTime)`


Support for RSS digest generation either in HTML or PDF format 2018-01-28 02:01:54 +01:00			`class FeedDigest(Base):`
			`""" Models the FeedDigest table, containing feed digests either in HTML`
			`or PDF format """`

			`class DigestFormat(enum.Enum):`
			`html = 1`
			`pdf = 2`

			`__tablename__ = 'FeedDigest'`
			`__table_args__ = ({ 'sqlite_autoincrement': True })`

			`id = Column(Integer, primary_key=True)`
			`source_id = Column(Integer, ForeignKey('FeedSource.id'), nullable=False)`
			`format = Column(Enum(DigestFormat), nullable=False)`
			`filename = Column(String, nullable=False)`
			`created_at = Column(DateTime, nullable=False, default=datetime.datetime.utcnow)`


Support for RSS feeds update events, solves #48 2018-01-27 04:31:09 +01:00			`# vim:sw=4:ts=4:et:`