Ich gebe es zu: seit jeher bin ich skeptisch gegenueber der SHA-1 Vergleichsmethode (und den anderen Pruefsumme-Methoden). Hintergrund: ich stelle mir immer vor dass zwei doch unterschiedliche Dateien als gleich erkannt werden, obwohl sie es eben nicht sind. Nun doch mal die Frage:
Wie oft kommt das vor, laesst sich da ein mathematisches Modell aus dem Hut zaubern?
Seit jeher benutze ich daher nur die Byte-fuer-Byte Vergleichsweise, wobei ich mich hier wiederum frage, warum die Werte alle so niedrig voreingestellt sind, zB das immer nur 32 KB gelesen werden. Wie kam man auf diesen Wert? Dieser ggf. langsamen (oder bei grossen Dateien doch schnelleren, weil schon frueher erkannt wird dass ungleich?) traue ich 100% dass sie nur gleiche Dateien findet.
Es sind ergo mehrere Fragen:
1) Wie hoch ist die Wahrscheinlichkeit dass SHA-1 zwei verschiedene Dateien als gleich einstuft?
2) Warum sind die Werte fuer Byte-fuer-Byte Vergleich so scheinbar gering eingestellt, hat das eine Expertise als Hintergrund?
3) Ist die Annahme richtig oder falsch, dass bei grossen Dateien (let's say 2 GB) die Byte-fuer-Byte Methode schneller abbricht als die SHA-1 noch rechnet?
Bonus) Benutzt der Autor selber die SHA-1 Methode?
Diese Verstaendnisfragen habe ich schon lange in mir schwelen.
Verstaendnisfrage SHA-1 (160 Bit) vs. Byte fuer Byte
-
- Site Admin
- Posts: 4049
- Joined: 04 Oct 2004, 18:38
- Location: Thailand
- Contact:
Re: Verstaendnisfrage SHA-1 (160 Bit) vs. Byte fuer Byte
99,99%, also praktisch Null. Wer aber 100%tige Sicherheit will der nimmt Byte-für-Byte.
Nein, das sind einfach nur Standardwerte. Wenn Sie mit großen Dateien arbeiten, dann können Sie auch höhere Werte verwenden.
Sinnvollerweise wären Zahlen zu verwenden, welche ein Vielfaches der Sektorengröße des zu durchsuchenden Speichermediums sind.
Kommt auf den Inhalt der Datei an...unabhängig davon: eine Prüfsumme muss nur 1x berechnet werden und by Byte-für-Byte muss die Datei ständig erneut durchsucht werden.
Wenn Sie beispielsweise 100 2GB Dateien mit der gleichen Größe untersuchen, dann wäre die Verwendung einer Prüfsumme je nach Dateiinhalt in der Praxis schneller!
Der Author hat schon lange keine Duplikate mehr