Nutzung der Datenbank

Deutscher Support für die Software AllDup
Post Reply
JoBeCo
Posts: 14
Joined: 05 Feb 2022, 20:58

Nutzung der Datenbank

Post by JoBeCo »

Hi!

Zunächst einmal ein großes Lob an das Tool - die vielen Varianten für das Aufspüren von Dubletten sind schon beachtlich!

Ich habe jetzt gerade die Updates bzgl. Datenbank entdeckt - und hier einen großen Performance-Gewinn erhofft.

Nun habe ich kürzlich von 4.5.10 auf 4.5.13 aktualisiert und schaue nach einer Handy-Sicherung nach doppelten Bildern. Zu meiner Überraschung muss ich feststellen, dass hier für etliche/die meisten/oder sogar alle Bilder, die ich in der Datenbank vermute checksummen generiert werden. Tatsächlich sind es sogar wesentlich mehr, als ich Dateien im Vergleich habe.

Ist die neueste Version nun dabei, alle möglichen Hashes zu speichern? Ich werde mal schauen, wie das bei einem weiteren Lauf ausschaut.

Feature-Request:
Wenn ich in meiner Sammlung ca. 100.000 Bilder liegen habe und nun (extremes Beispiel) ein Bild hinzufügen möchte, würde ich mal schnell schauen wollen, ob das nicht bereits auf meinem NAS liegt.
Auch wenn AllDup hier bereits (fast) alles in der Datenbank hat, dauert es doch erheblich, hier alle Bilder einmal zu kontrollieren und dann das zusätzliche Bild im Vergleich aufzunehmen.
Und ich bekomme natürlich auch wieder alle Dubletten (selbst bei 100%), die ich für OK befunden habe bzw. behalten möchte ...
Daher wünsche ich mir eine Such-Variante, die lediglich die Neuzugänge (z.B. einen bestimmten Ordner) komplett untersucht und hier Hashes bildet. Für den Abgleich wird dann aber die gesamte Datenbank herangezogen.
Im Beispiel mit einem Bild, bekomme ich so nur eine Dublettengruppe (wenn überhaupt).
Für die Treffer aus der Datenbank könnte man noch den Abgleich zwischen Datenbank und Datei durchführen und für diese dann entweder den Hash aktualisieren, oder den Eintrag komplett entfernen, falls sich die betroffene Datei geändert haben sollte, oder komplett verschwunden ist.

Vielen Dank und viele Grüße,
JoBeCo
JoBeCo
Posts: 14
Joined: 05 Feb 2022, 20:58

Re: Nutzung der Datenbank

Post by JoBeCo »

Ergänzung zum Laufverhalten:
Neben der Menge an neu erstellten Prüfsummen wundert mich auch die riesige Menge an Dateivergleichen.

Bei meinem aktuellen Lauf, der jetzt schon fast 24h unterwegs ist, wurden 60.000 von 127.000 Bildern in Schritt 2 verglichen. Nimmt man alle möglichen Paarungen bei 60.000 Bildern komme ich auf ca 1.800.000.000 Vergleiche - angezeigt werden mir aber schon mehr als 6,5 Mrd ...
Administrator
Site Admin
Posts: 4046
Joined: 04 Oct 2004, 18:38
Location: Thailand
Contact:

Re: Nutzung der Datenbank

Post by Administrator »

Haben Sie die eventuell die Option "Bildveränderungen erkennen" aktiviert?
Durch diese Option werden bis zu 8 verschiedene Prüfsummen pro Datei erstellt.
JoBeCo
Posts: 14
Joined: 05 Feb 2022, 20:58

Re: Nutzung der Datenbank

Post by JoBeCo »

Ja, das ist dann wohl auch die Erklärung für den Faktor: Drehungen habe ich "erlaubt", Spiegelungen nicht.

Code: Select all

SimiliarImagesCompareSource="0"
SimiliarImagesCompareSourceWH="16"
SimiliarImagesAlgo="3"
SimiliarImagesOnlySameFileName="0"
SimiliarImagesOnlySameFileType="0"
SimiliarImagesOnlySameDimension="0"
SimiliarImagesOnlySameFormat="0"
SimiliarImagesOnlySameRatio="0"
SimiliarImagesRotateFlip="1"
SimiliarImagesRotateFlip0="1"
SimiliarImagesRotateFlip1="1"
SimiliarImagesRotateFlip2="1"
SimiliarImagesRotateFlip3="0"
SimiliarImagesRotateFlip4="0"
SimiliarImagesRotateFlip5="0"
SimiliarImagesRotateFlip6="0"
SimilarPicsMatchPercent="100"
SimilarPicsThumbSizeIndex="1"
SimilarPicsChecksumBitsIndex="0"
SimilarPicsChecksumOptionIndex="0"
Allerdings lief AllDup mit dieser Einstellung in der Version 4.5.10 auch schon einmal über die Bilder und berechnet nun in 4.5.13 so viele Prüfsummen neu ... wie erwähnt werde ich noch einmal schauen, wenn der Lauf beendet ist, wie lange das gleiche Setup bei einem erneuten Lauf benötigt.

Was den Feature-Request angeht, bleibt der natürlich bestehen 8)

VG
Administrator
Site Admin
Posts: 4046
Joined: 04 Oct 2004, 18:38
Location: Thailand
Contact:

Re: Nutzung der Datenbank

Post by Administrator »

JoBeCo wrote: 07 Feb 2022, 04:30 Was den Feature-Request angeht, bleibt der natürlich bestehen 8)
Tut mir leid, aber dieses Feature-Request wird wahrscheinlich nicht umgesetzt werden. Dafür müsste die komplette Search-Engine umgeschrieben werden...
JoBeCo
Posts: 14
Joined: 05 Feb 2022, 20:58

Re: Nutzung der Datenbank

Post by JoBeCo »

So,

nach ca. 50h war dann alles durch. Das Ergebnis kann man ja glücklicherweise sichern und jederzeit in Teilen oder komplett abarbeiten.

Nun aber zum Thread-Thema, der Nutzung der Datenbank:
Die DB zeigt nun an, dass dort über 120.000 Einträge vorliegen. Ich habe den selben Lauf wie zuvor gestartet - lediglich einen Ordner in die Ausnahmen mit aufgenommen.
Die Performance hat sich aber überhaupt nicht geändert. Nach 6h wurden 16.000 Dateien verglichen und 61.000 Prüfsummen erstellt.

Hier scheint also etwas nicht zu funktionieren. Entweder liegt es an der Software, oder an der Datenbank, die ja bereits in der Version 4.5.10 initiiert wurde ...

VG
JoBeCo
Posts: 14
Joined: 05 Feb 2022, 20:58

Re: Nutzung der Datenbank

Post by JoBeCo »

Okay, das ist komisch ...

Ich habe jetzt dann doch mal den *NEU* Knopf gedrückt und die alte Datenbank verworfen. Für den Test habe ich dann auch nur ca. 1.000 Daten herangezogen.
  1. Bei den gleichen Einstellungen zu den "Bildänderungen" mit 90° und 180° gedreht stehen nun in der Datenbank 730 Dateien und genau 730 Prüfsummen - von Drehung also keine Spur.
  2. Der erneute Lauf rennt förmlich über die Dateien, weil keine Prüfsummen mehr erstellt werden.
Damit scheint die Datenbank wieder ihren Zweck zu erfüllen - jedoch nur mit einer Prüfsummen anstelle von 3 oder 4.

PS: auf dem Datenbankreiter sind aktuell alle Häkchen gesetzt.
Administrator
Site Admin
Posts: 4046
Joined: 04 Oct 2004, 18:38
Location: Thailand
Contact:

Re: Nutzung der Datenbank

Post by Administrator »

Das Problem mit den Prüfsummen aus der Datenbank bei Nutzung der Option "Bildveränderungen erkennen" ist mit dem nächsten Update behoben!
Post Reply