moviewyrm/bookwyrm/books_manager.py

''' select and call a connector for whatever book task needs doing '''
import importlib
from urllib.parse import urlparse

from requests import HTTPError

from bookwyrm import models
from bookwyrm.tasks import app


def get_edition(book_id):
    ''' look up a book in the db and return an edition '''
    book = models.Book.objects.select_subclasses().get(id=book_id)
    if isinstance(book, models.Work):
        book = book.default_edition
    return book


def get_or_create_book(remote_id):
    ''' pull up a book record by whatever means possible '''
    book = models.Book.objects.select_subclasses().filter(
        remote_id=remote_id
    ).first()
    if book:
        return book

    connector = get_or_create_connector(remote_id)

    # raises ConnectorException
    book = connector.get_or_create_book(remote_id)
    if book:
        load_more_data.delay(book.id)
    return book


def get_or_create_connector(remote_id):
    ''' get the connector related to the author's server '''
    url = urlparse(remote_id)
    identifier = url.netloc
    if not identifier:
        raise ValueError('Invalid remote id')

    try:
        connector_info = models.Connector.objects.get(identifier=identifier)
    except models.Connector.DoesNotExist:
        connector_info = models.Connector.objects.create(
            identifier=identifier,
            connector_file='bookwyrm_connector',
            base_url='https://%s' % identifier,
            books_url='https://%s/book' % identifier,
            covers_url='https://%s/images/covers' % identifier,
            search_url='https://%s/search?q=' % identifier,
            priority=3
        )

    return load_connector(connector_info)


@app.task
def load_more_data(book_id):
    ''' background the work of getting all 10,000 editions of LoTR '''
    book = models.Book.objects.select_subclasses().get(id=book_id)
    connector = load_connector(book.connector)
    connector.expand_book_data(book)


def search(query):
    ''' find books based on arbitary keywords '''
    results = []
    dedup_slug = lambda r: '%s/%s/%s' % (r.title, r.author, r.year)
    result_index = set()
    for connector in get_connectors():
        try:
            result_set = connector.search(query)
        except HTTPError:
            continue

        result_set = [r for r in result_set \
                if dedup_slug(r) not in result_index]
        # `|=` concats two sets. WE ARE GETTING FANCY HERE
        result_index |= set(dedup_slug(r) for r in result_set)
        results.append({
            'connector': connector,
            'results': result_set,
        })

    return results


def local_search(query):
    ''' only look at local search results '''
    connector = load_connector(models.Connector.objects.get(local=True))
    return connector.search(query)


def first_search_result(query):
    ''' search until you find a result that fits '''
    for connector in get_connectors():
        result = connector.search(query)
        if result:
            return result[0]
    return None


def update_book(book, data=None):
    ''' re-sync with the original data source '''
    connector = load_connector(book.connector)
    connector.update_book(book, data=data)


def get_connectors():
    ''' load all connectors '''
    for info in models.Connector.objects.order_by('priority').all():
        yield load_connector(info)


def load_connector(connector_info):
    ''' instantiate the connector class '''
    connector = importlib.import_module(
        'bookwyrm.connectors.%s' % connector_info.connector_file
    )
    return connector.Connector(connector_info.identifier)
Adds generalized book data connectors 2020-03-07 20:22:28 +00:00			`''' select and call a connector for whatever book task needs doing '''`
Use database as source for initializing connector 2020-03-27 22:25:08 +00:00			`import importlib`
Cleans up status creation book lookup flow 2020-05-04 19:36:55 +00:00			`from urllib.parse import urlparse`
Use database as source for initializing connector 2020-03-27 22:25:08 +00:00
Use dataclasses to define activitypub (de)serialization (#177) * Use dataclasses to define activitypub (de)serialization 2020-09-17 20:02:52 +00:00			`from requests import HTTPError`

Updates migrations To get the app working again I ran resetdb, let it crash in initdb, then ran the migration, then re-ran initdb 2020-09-21 15:10:37 +00:00			`from bookwyrm import models`
			`from bookwyrm.tasks import app`
Use database as source for initializing connector 2020-03-27 22:25:08 +00:00
Adds generalized book data connectors 2020-03-07 20:22:28 +00:00
Adds helper function for loading editions 2020-05-11 01:08:18 +00:00			`def get_edition(book_id):`
			`''' look up a book in the db and return an edition '''`
			`book = models.Book.objects.select_subclasses().get(id=book_id)`
			`if isinstance(book, models.Work):`
			`book = book.default_edition`
			`return book`


Only use get_or_create_book with remote_id 2020-05-11 00:40:22 +00:00			`def get_or_create_book(remote_id):`
Adds generalized book data connectors 2020-03-07 20:22:28 +00:00			`''' pull up a book record by whatever means possible '''`
Unify concept of absolute_id and remote_id 2020-05-13 01:56:28 +00:00			`book = models.Book.objects.select_subclasses().filter(`
			`remote_id=remote_id`
			`).first()`
Fixes bug that uses edition remote_id for work 2020-05-09 20:11:14 +00:00			`if book:`
Use database as source for initializing connector 2020-03-27 22:25:08 +00:00			`return book`

Only use get_or_create_book with remote_id 2020-05-11 00:40:22 +00:00			`connector = get_or_create_connector(remote_id)`
Adds create_book functionality for fedireads conn 2020-05-08 23:56:49 +00:00
More error handling in connector/books manager 2020-10-01 03:09:25 +00:00			`# raises ConnectorException`
Only use get_or_create_book with remote_id 2020-05-11 00:40:22 +00:00			`book = connector.get_or_create_book(remote_id)`
More error handling in connector/books manager 2020-10-01 03:09:25 +00:00			`if book:`
			`load_more_data.delay(book.id)`
move loading editions to task 2020-04-02 05:11:31 +00:00			`return book`


Cleans up status creation book lookup flow 2020-05-04 19:36:55 +00:00			`def get_or_create_connector(remote_id):`
			`''' get the connector related to the author's server '''`
			`url = urlparse(remote_id)`
			`identifier = url.netloc`
			`if not identifier:`
Adds create_book functionality for fedireads conn 2020-05-08 23:56:49 +00:00			`raise ValueError('Invalid remote id')`
Cleans up status creation book lookup flow 2020-05-04 19:36:55 +00:00
			`try:`
			`connector_info = models.Connector.objects.get(identifier=identifier)`
			`except models.Connector.DoesNotExist:`
			`connector_info = models.Connector.objects.create(`
			`identifier=identifier,`
Updates migrations To get the app working again I ran resetdb, let it crash in initdb, then ran the migration, then re-ran initdb 2020-09-21 15:10:37 +00:00			`connector_file='bookwyrm_connector',`
Cleans up status creation book lookup flow 2020-05-04 19:36:55 +00:00			`base_url='https://%s' % identifier,`
			`books_url='https://%s/book' % identifier,`
			`covers_url='https://%s/images/covers' % identifier,`
			`search_url='https://%s/search?q=' % identifier,`
			`priority=3`
			`)`

			`return load_connector(connector_info)`


move loading editions to task 2020-04-02 05:11:31 +00:00			`@app.task`
			`def load_more_data(book_id):`
			`''' background the work of getting all 10,000 editions of LoTR '''`
			`book = models.Book.objects.select_subclasses().get(id=book_id)`
Remove fedireads_key field we have ID 2020-05-04 00:53:14 +00:00			`connector = load_connector(book.connector)`
move loading editions to task 2020-04-02 05:11:31 +00:00			`connector.expand_book_data(book)`

Use database as source for initializing connector 2020-03-27 22:25:08 +00:00
Search cleanup 2020-05-03 22:26:47 +00:00			`def search(query):`
Separate out local and remote search results 2020-05-03 19:59:06 +00:00			`''' find books based on arbitary keywords '''`
			`results = []`
Adds dedplication back in 2020-05-03 20:32:23 +00:00			`dedup_slug = lambda r: '%s/%s/%s' % (r.title, r.author, r.year)`
Search cleanup 2020-05-03 22:26:47 +00:00			`result_index = set()`
Separate out local and remote search results 2020-05-03 19:59:06 +00:00			`for connector in get_connectors():`
Load author data with fedireads connector 2020-05-09 19:09:40 +00:00			`try:`
			`result_set = connector.search(query)`
			`except HTTPError:`
			`continue`
Adds dedplication back in 2020-05-03 20:32:23 +00:00
Search cleanup 2020-05-03 22:26:47 +00:00			`result_set = [r for r in result_set \`
			`if dedup_slug(r) not in result_index]`
			# `\|=` concats two sets. WE ARE GETTING FANCY HERE
			`result_index \|= set(dedup_slug(r) for r in result_set)`
Separate out local and remote search results 2020-05-03 19:59:06 +00:00			`results.append({`
			`'connector': connector,`
Search cleanup 2020-05-03 22:26:47 +00:00			`'results': result_set,`
Separate out local and remote search results 2020-05-03 19:59:06 +00:00			`})`
Adds fulltext search of postgres 2020-04-29 17:57:20 +00:00
			`return results`
Use database as source for initializing connector 2020-03-27 22:25:08 +00:00
Separate out local and remote search results 2020-05-03 19:59:06 +00:00
Json serialize search results 2020-05-04 17:15:41 +00:00			`def local_search(query):`
			`''' only look at local search results '''`
			`connector = load_connector(models.Connector.objects.get(local=True))`
			`return connector.search(query)`


Search cleanup 2020-05-03 22:26:47 +00:00			`def first_search_result(query):`
			`''' search until you find a result that fits '''`
			`for connector in get_connectors():`
			`result = connector.search(query)`
			`if result:`
			`return result[0]`
			`return None`


Path to update books 2020-05-04 01:56:29 +00:00			`def update_book(book, data=None):`
Periodically update books Fixes #21 2020-03-28 23:30:54 +00:00			`''' re-sync with the original data source '''`
Remove fedireads_key field we have ID 2020-05-04 00:53:14 +00:00			`connector = load_connector(book.connector)`
Path to update books 2020-05-04 01:56:29 +00:00			`connector.update_book(book, data=data)`
Periodically update books Fixes #21 2020-03-28 23:30:54 +00:00
Adds book data source connector database table 2020-03-27 21:14:28 +00:00
Separate out local and remote search results 2020-05-03 19:59:06 +00:00			`def get_connectors():`
			`''' load all connectors '''`
Tests for books_manager 2020-05-12 17:01:36 +00:00			`for info in models.Connector.objects.order_by('priority').all():`
			`yield load_connector(info)`
Adds fulltext search of postgres 2020-04-29 17:57:20 +00:00

Separate out local and remote search results 2020-05-03 19:59:06 +00:00			`def load_connector(connector_info):`
			`''' instantiate the connector class '''`
Rename local key and suggest fedireads connectors 2020-03-27 23:36:52 +00:00			`connector = importlib.import_module(`
Updates migrations To get the app working again I ran resetdb, let it crash in initdb, then ran the migration, then re-ran initdb 2020-09-21 15:10:37 +00:00			`'bookwyrm.connectors.%s' % connector_info.connector_file`
Rename local key and suggest fedireads connectors 2020-03-27 23:36:52 +00:00			`)`
			`return connector.Connector(connector_info.identifier)`