Hi!
Zunächst einmal ein großes Lob an das Tool - die vielen Varianten für das Aufspüren von Dubletten sind schon beachtlich!
Ich habe jetzt gerade die Updates bzgl. Datenbank entdeckt - und hier einen großen Performance-Gewinn erhofft.
Nun habe ich kürzlich von 4.5.10 auf 4.5.13 aktualisiert und schaue nach einer Handy-Sicherung nach doppelten Bildern. Zu meiner Überraschung muss ich feststellen, dass hier für etliche/die meisten/oder sogar alle Bilder, die ich in der Datenbank vermute checksummen generiert werden. Tatsächlich sind es sogar wesentlich mehr, als ich Dateien im Vergleich habe.
Ist die neueste Version nun dabei, alle möglichen Hashes zu speichern? Ich werde mal schauen, wie das bei einem weiteren Lauf ausschaut.
Feature-Request:
Wenn ich in meiner Sammlung ca. 100.000 Bilder liegen habe und nun (extremes Beispiel) ein Bild hinzufügen möchte, würde ich mal schnell schauen wollen, ob das nicht bereits auf meinem NAS liegt.
Auch wenn AllDup hier bereits (fast) alles in der Datenbank hat, dauert es doch erheblich, hier alle Bilder einmal zu kontrollieren und dann das zusätzliche Bild im Vergleich aufzunehmen.
Und ich bekomme natürlich auch wieder alle Dubletten (selbst bei 100%), die ich für OK befunden habe bzw. behalten möchte ...
Daher wünsche ich mir eine Such-Variante, die lediglich die Neuzugänge (z.B. einen bestimmten Ordner) komplett untersucht und hier Hashes bildet. Für den Abgleich wird dann aber die gesamte Datenbank herangezogen.
Im Beispiel mit einem Bild, bekomme ich so nur eine Dublettengruppe (wenn überhaupt).
Für die Treffer aus der Datenbank könnte man noch den Abgleich zwischen Datenbank und Datei durchführen und für diese dann entweder den Hash aktualisieren, oder den Eintrag komplett entfernen, falls sich die betroffene Datei geändert haben sollte, oder komplett verschwunden ist.
Vielen Dank und viele Grüße,
JoBeCo
Nutzung der Datenbank
Re: Nutzung der Datenbank
Ergänzung zum Laufverhalten:
Neben der Menge an neu erstellten Prüfsummen wundert mich auch die riesige Menge an Dateivergleichen.
Bei meinem aktuellen Lauf, der jetzt schon fast 24h unterwegs ist, wurden 60.000 von 127.000 Bildern in Schritt 2 verglichen. Nimmt man alle möglichen Paarungen bei 60.000 Bildern komme ich auf ca 1.800.000.000 Vergleiche - angezeigt werden mir aber schon mehr als 6,5 Mrd ...
Neben der Menge an neu erstellten Prüfsummen wundert mich auch die riesige Menge an Dateivergleichen.
Bei meinem aktuellen Lauf, der jetzt schon fast 24h unterwegs ist, wurden 60.000 von 127.000 Bildern in Schritt 2 verglichen. Nimmt man alle möglichen Paarungen bei 60.000 Bildern komme ich auf ca 1.800.000.000 Vergleiche - angezeigt werden mir aber schon mehr als 6,5 Mrd ...
-
- Site Admin
- Posts: 4050
- Joined: 04 Oct 2004, 18:38
- Location: Thailand
- Contact:
Re: Nutzung der Datenbank
Haben Sie die eventuell die Option "Bildveränderungen erkennen" aktiviert?
Durch diese Option werden bis zu 8 verschiedene Prüfsummen pro Datei erstellt.
Durch diese Option werden bis zu 8 verschiedene Prüfsummen pro Datei erstellt.
Re: Nutzung der Datenbank
Ja, das ist dann wohl auch die Erklärung für den Faktor: Drehungen habe ich "erlaubt", Spiegelungen nicht.
Allerdings lief AllDup mit dieser Einstellung in der Version 4.5.10 auch schon einmal über die Bilder und berechnet nun in 4.5.13 so viele Prüfsummen neu ... wie erwähnt werde ich noch einmal schauen, wenn der Lauf beendet ist, wie lange das gleiche Setup bei einem erneuten Lauf benötigt.
Was den Feature-Request angeht, bleibt der natürlich bestehen
VG
Code: Select all
SimiliarImagesCompareSource="0"
SimiliarImagesCompareSourceWH="16"
SimiliarImagesAlgo="3"
SimiliarImagesOnlySameFileName="0"
SimiliarImagesOnlySameFileType="0"
SimiliarImagesOnlySameDimension="0"
SimiliarImagesOnlySameFormat="0"
SimiliarImagesOnlySameRatio="0"
SimiliarImagesRotateFlip="1"
SimiliarImagesRotateFlip0="1"
SimiliarImagesRotateFlip1="1"
SimiliarImagesRotateFlip2="1"
SimiliarImagesRotateFlip3="0"
SimiliarImagesRotateFlip4="0"
SimiliarImagesRotateFlip5="0"
SimiliarImagesRotateFlip6="0"
SimilarPicsMatchPercent="100"
SimilarPicsThumbSizeIndex="1"
SimilarPicsChecksumBitsIndex="0"
SimilarPicsChecksumOptionIndex="0"
Was den Feature-Request angeht, bleibt der natürlich bestehen
VG
-
- Site Admin
- Posts: 4050
- Joined: 04 Oct 2004, 18:38
- Location: Thailand
- Contact:
Re: Nutzung der Datenbank
So,
nach ca. 50h war dann alles durch. Das Ergebnis kann man ja glücklicherweise sichern und jederzeit in Teilen oder komplett abarbeiten.
Nun aber zum Thread-Thema, der Nutzung der Datenbank:
Die DB zeigt nun an, dass dort über 120.000 Einträge vorliegen. Ich habe den selben Lauf wie zuvor gestartet - lediglich einen Ordner in die Ausnahmen mit aufgenommen.
Die Performance hat sich aber überhaupt nicht geändert. Nach 6h wurden 16.000 Dateien verglichen und 61.000 Prüfsummen erstellt.
Hier scheint also etwas nicht zu funktionieren. Entweder liegt es an der Software, oder an der Datenbank, die ja bereits in der Version 4.5.10 initiiert wurde ...
VG
nach ca. 50h war dann alles durch. Das Ergebnis kann man ja glücklicherweise sichern und jederzeit in Teilen oder komplett abarbeiten.
Nun aber zum Thread-Thema, der Nutzung der Datenbank:
Die DB zeigt nun an, dass dort über 120.000 Einträge vorliegen. Ich habe den selben Lauf wie zuvor gestartet - lediglich einen Ordner in die Ausnahmen mit aufgenommen.
Die Performance hat sich aber überhaupt nicht geändert. Nach 6h wurden 16.000 Dateien verglichen und 61.000 Prüfsummen erstellt.
Hier scheint also etwas nicht zu funktionieren. Entweder liegt es an der Software, oder an der Datenbank, die ja bereits in der Version 4.5.10 initiiert wurde ...
VG
Re: Nutzung der Datenbank
Okay, das ist komisch ...
Ich habe jetzt dann doch mal den *NEU* Knopf gedrückt und die alte Datenbank verworfen. Für den Test habe ich dann auch nur ca. 1.000 Daten herangezogen.
PS: auf dem Datenbankreiter sind aktuell alle Häkchen gesetzt.
Ich habe jetzt dann doch mal den *NEU* Knopf gedrückt und die alte Datenbank verworfen. Für den Test habe ich dann auch nur ca. 1.000 Daten herangezogen.
- Bei den gleichen Einstellungen zu den "Bildänderungen" mit 90° und 180° gedreht stehen nun in der Datenbank 730 Dateien und genau 730 Prüfsummen - von Drehung also keine Spur.
- Der erneute Lauf rennt förmlich über die Dateien, weil keine Prüfsummen mehr erstellt werden.
PS: auf dem Datenbankreiter sind aktuell alle Häkchen gesetzt.
-
- Site Admin
- Posts: 4050
- Joined: 04 Oct 2004, 18:38
- Location: Thailand
- Contact:
Re: Nutzung der Datenbank
Das Problem mit den Prüfsummen aus der Datenbank bei Nutzung der Option "Bildveränderungen erkennen" ist mit dem nächsten Update behoben!