bookwyrm/bookwyrm/management/commands/deduplicate_book_data.py

""" PROCEED WITH CAUTION: uses deduplication fields to permanently
merge book data objects """
from django.core.management.base import BaseCommand
from django.db.models import Count
from bookwyrm import models


def update_related(canonical, obj):
    """ update all the models with fk to the object being removed """
    # move related models to canonical
    related_models = [
        (r.remote_field.name, r.related_model) for r in canonical._meta.related_objects
    ]
    for (related_field, related_model) in related_models:
        related_objs = related_model.objects.filter(**{related_field: obj})
        for related_obj in related_objs:
            print("replacing in", related_model.__name__, related_field, related_obj.id)
            try:
                setattr(related_obj, related_field, canonical)
                related_obj.save()
            except TypeError:
                getattr(related_obj, related_field).add(canonical)
                getattr(related_obj, related_field).remove(obj)


def copy_data(canonical, obj):
    """ try to get the most data possible """
    for data_field in obj._meta.get_fields():
        if not hasattr(data_field, "activitypub_field"):
            continue
        data_value = getattr(obj, data_field.name)
        if not data_value:
            continue
        if not getattr(canonical, data_field.name):
            print("setting data field", data_field.name, data_value)
            setattr(canonical, data_field.name, data_value)
    canonical.save()


def dedupe_model(model):
    """ combine duplicate editions and update related models """
    fields = model._meta.get_fields()
    dedupe_fields = [
        f for f in fields if hasattr(f, "deduplication_field") and f.deduplication_field
    ]
    for field in dedupe_fields:
        dupes = (
            model.objects.values(field.name)
            .annotate(Count(field.name))
            .filter(**{"%s__count__gt" % field.name: 1})
        )

        for dupe in dupes:
            value = dupe[field.name]
            if not value or value == "":
                continue
            print("----------")
            print(dupe)
            objs = model.objects.filter(**{field.name: value}).order_by("id")
            canonical = objs.first()
            print("keeping", canonical.remote_id)
            for obj in objs[1:]:
                print(obj.remote_id)
                copy_data(canonical, obj)
                update_related(canonical, obj)
                # remove the outdated entry
                obj.delete()


class Command(BaseCommand):
    """ dedplucate allllll the book data models """

    help = "merges duplicate book data"
    # pylint: disable=no-self-use,unused-argument
    def handle(self, *args, **options):
        """ run deudplications """
        dedupe_model(models.Edition)
        dedupe_model(models.Work)
        dedupe_model(models.Author)
Runs black 2021-03-08 16:49:10 +00:00			`""" PROCEED WITH CAUTION: uses deduplication fields to permanently`
			`merge book data objects """`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`from django.core.management.base import BaseCommand`
			`from django.db.models import Count`
			`from bookwyrm import models`


move some code around for readability 2021-01-01 00:30:04 +00:00			`def update_related(canonical, obj):`
Runs black 2021-03-08 16:49:10 +00:00			`""" update all the models with fk to the object being removed """`
move some code around for readability 2021-01-01 00:30:04 +00:00			`# move related models to canonical`
			`related_models = [`
Runs black 2021-03-08 16:49:10 +00:00			`(r.remote_field.name, r.related_model) for r in canonical._meta.related_objects`
			`]`
move some code around for readability 2021-01-01 00:30:04 +00:00			`for (related_field, related_model) in related_models:`
Runs black 2021-03-08 16:49:10 +00:00			`related_objs = related_model.objects.filter(**{related_field: obj})`
move some code around for readability 2021-01-01 00:30:04 +00:00			`for related_obj in related_objs:`
Runs black 2021-03-08 16:49:10 +00:00			`print("replacing in", related_model.__name__, related_field, related_obj.id)`
move some code around for readability 2021-01-01 00:30:04 +00:00			`try:`
			`setattr(related_obj, related_field, canonical)`
			`related_obj.save()`
			`except TypeError:`
			`getattr(related_obj, related_field).add(canonical)`
			`getattr(related_obj, related_field).remove(obj)`


			`def copy_data(canonical, obj):`
Runs black 2021-03-08 16:49:10 +00:00			`""" try to get the most data possible """`
move some code around for readability 2021-01-01 00:30:04 +00:00			`for data_field in obj._meta.get_fields():`
Runs black 2021-03-08 16:49:10 +00:00			`if not hasattr(data_field, "activitypub_field"):`
move some code around for readability 2021-01-01 00:30:04 +00:00			`continue`
			`data_value = getattr(obj, data_field.name)`
			`if not data_value:`
			`continue`
			`if not getattr(canonical, data_field.name):`
Runs black 2021-03-08 16:49:10 +00:00			`print("setting data field", data_field.name, data_value)`
move some code around for readability 2021-01-01 00:30:04 +00:00			`setattr(canonical, data_field.name, data_value)`
			`canonical.save()`


Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`def dedupe_model(model):`
Runs black 2021-03-08 16:49:10 +00:00			`""" combine duplicate editions and update related models """`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`fields = model._meta.get_fields()`
Runs black 2021-03-08 16:49:10 +00:00			`dedupe_fields = [`
			`f for f in fields if hasattr(f, "deduplication_field") and f.deduplication_field`
			`]`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`for field in dedupe_fields:`
Runs black 2021-03-08 16:49:10 +00:00			`dupes = (`
			`model.objects.values(field.name)`
			`.annotate(Count(field.name))`
			`.filter(**{"%s__count__gt" % field.name: 1})`
			`)`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00
			`for dupe in dupes:`
			`value = dupe[field.name]`
Runs black 2021-03-08 16:49:10 +00:00			`if not value or value == "":`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`continue`
Runs black 2021-03-08 16:49:10 +00:00			`print("----------")`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`print(dupe)`
Runs black 2021-03-08 16:49:10 +00:00			`objs = model.objects.filter(**{field.name: value}).order_by("id")`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`canonical = objs.first()`
Runs black 2021-03-08 16:49:10 +00:00			`print("keeping", canonical.remote_id)`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`for obj in objs[1:]:`
move some code around for readability 2021-01-01 00:30:04 +00:00			`print(obj.remote_id)`
			`copy_data(canonical, obj)`
			`update_related(canonical, obj)`
			`# remove the outdated entry`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`obj.delete()`


			`class Command(BaseCommand):`
Runs black 2021-03-08 16:49:10 +00:00			`""" dedplucate allllll the book data models """`

			`help = "merges duplicate book data"`
move some code around for readability 2021-01-01 00:30:04 +00:00			`# pylint: disable=no-self-use,unused-argument`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`def handle(self, args, *options):`
Runs black 2021-03-08 16:49:10 +00:00			`""" run deudplications """`
Script for removing duplicates in book data 2021-01-01 00:03:54 +00:00			`dedupe_model(models.Edition)`
			`dedupe_model(models.Work)`
			`dedupe_model(models.Author)`