Verstaendnisfrage SHA-1 (160 Bit) vs. Byte fuer Byte

Deutscher Support für die Software AllDup
Post Reply
airport1
Posts: 22
Joined: 03 Jun 2016, 01:03

Verstaendnisfrage SHA-1 (160 Bit) vs. Byte fuer Byte

Post by airport1 »

Ich gebe es zu: seit jeher bin ich skeptisch gegenueber der SHA-1 Vergleichsmethode (und den anderen Pruefsumme-Methoden). Hintergrund: ich stelle mir immer vor dass zwei doch unterschiedliche Dateien als gleich erkannt werden, obwohl sie es eben nicht sind. Nun doch mal die Frage:
Wie oft kommt das vor, laesst sich da ein mathematisches Modell aus dem Hut zaubern?

Seit jeher benutze ich daher nur die Byte-fuer-Byte Vergleichsweise, wobei ich mich hier wiederum frage, warum die Werte alle so niedrig voreingestellt sind, zB das immer nur 32 KB gelesen werden. Wie kam man auf diesen Wert? Dieser ggf. langsamen (oder bei grossen Dateien doch schnelleren, weil schon frueher erkannt wird dass ungleich?) traue ich 100% dass sie nur gleiche Dateien findet.

Es sind ergo mehrere Fragen:
1) Wie hoch ist die Wahrscheinlichkeit dass SHA-1 zwei verschiedene Dateien als gleich einstuft?
2) Warum sind die Werte fuer Byte-fuer-Byte Vergleich so scheinbar gering eingestellt, hat das eine Expertise als Hintergrund?
3) Ist die Annahme richtig oder falsch, dass bei grossen Dateien (let's say 2 GB) die Byte-fuer-Byte Methode schneller abbricht als die SHA-1 noch rechnet?
Bonus) Benutzt der Autor selber die SHA-1 Methode?

Diese Verstaendnisfragen habe ich schon lange in mir schwelen.
Administrator
Site Admin
Posts: 4046
Joined: 04 Oct 2004, 18:38
Location: Thailand
Contact:

Re: Verstaendnisfrage SHA-1 (160 Bit) vs. Byte fuer Byte

Post by Administrator »

airport1 wrote: 30 May 2020, 23:58 Wie hoch ist die Wahrscheinlichkeit dass SHA-1 zwei verschiedene Dateien als gleich einstuft?
99,99%, also praktisch Null. Wer aber 100%tige Sicherheit will der nimmt Byte-für-Byte.
airport1 wrote: 30 May 2020, 23:58 Warum sind die Werte fuer Byte-fuer-Byte Vergleich so scheinbar gering eingestellt, hat das eine Expertise als Hintergrund?
Nein, das sind einfach nur Standardwerte. Wenn Sie mit großen Dateien arbeiten, dann können Sie auch höhere Werte verwenden.
Sinnvollerweise wären Zahlen zu verwenden, welche ein Vielfaches der Sektorengröße des zu durchsuchenden Speichermediums sind.
airport1 wrote: 30 May 2020, 23:58 Ist die Annahme richtig oder falsch, dass bei grossen Dateien (let's say 2 GB) die Byte-fuer-Byte Methode schneller abbricht als die SHA-1 noch rechnet?
Kommt auf den Inhalt der Datei an...unabhängig davon: eine Prüfsumme muss nur 1x berechnet werden und by Byte-für-Byte muss die Datei ständig erneut durchsucht werden.
Wenn Sie beispielsweise 100 2GB Dateien mit der gleichen Größe untersuchen, dann wäre die Verwendung einer Prüfsumme je nach Dateiinhalt in der Praxis schneller!
airport1 wrote: 30 May 2020, 23:58 Benutzt der Autor selber die SHA-1 Methode?
Der Author hat schon lange keine Duplikate mehr :lol:
Post Reply