Hallo,
auf einem Server mit 50.000 DAteien lief der Dupsearch > 50k DAteien innerhalb von 20 Minuten absolut zufriedenstellend durch.
Jetzt allerdings auf dem gleichen Server nur ein anderes Verzeichnis mit 110.000 Dateien braucht er urig lange. er hängt schon seit 2 stunden bei 20-21 %, aber bewegt sich zumind.
warum dauerts jetzt auf einmal so lange?
Macht er den Vergleich im vorhinein schlau?
Holt sich erstmal von allen Dateien kurz eine Quersumme oder nur die Größe und vergleicht nur die DAteien genau Binär wo die Angaben gleich sind?
Oder nimmt er sich etwa eine Datei und geht dann alle anderen durch....und das mit jeder....?
(auch rein interessehalber)
Binärvergleich -> wie
-
- Site Admin
- Posts: 4049
- Joined: 04 Oct 2004, 18:38
- Location: Thailand
- Contact:
Re: Binärvergleich -> wie
Wahrscheinlich ist die Datenmenge (Gesamtgröße aller Dateien) höher als bei Ihrem anderen Durchlauf und bei einer höheren Anzahl von Dateien erhöht sich auch noch die Anzahl der Vergleiche.warum dauerts jetzt auf einmal so lange?
NeinMacht er den Vergleich im vorhinein schlau?
Quersumme wird keine gebildet, da er sonst immer alle Dateien komplett einlesen und analysieren müsste. Es werden natürlich nur Dateien mit gleicher Größe verglichen und der Vergleich wird vorher abgebrochen, wenn der Inhalt an einer Stelle unterschiedlich ist.Holt sich erstmal von allen Dateien kurz eine Quersumme oder nur die Größe und vergleicht nur die DAteien genau Binär wo die Angaben gleich sind?
Nicht ganz, Dateien die schon als Duplikat identifiziert wurden, werden natürlich nicht nochmals für den Vergleich verwendet. Hierzu reicht eine Referenzdatei mit dem gleichen Inhalt aus.Oder nimmt er sich etwa eine Datei und geht dann alle anderen durch....und das mit jeder....?