Inhaltlich identische RTFs auch bei 1% nicht erkannt

Deutscher Support für die Software AllDup
Post Reply
101
Posts: 5
Joined: 29 Dec 2017, 13:44

Inhaltlich identische RTFs auch bei 1% nicht erkannt

Post by 101 »

Hm, ich habe hier zwei inhaltlich identische RTF-Dokumente, die auch bei "Byte für Byte" mit "1 % Übereinstimmung" nicht als gleich erkannt werden. Der Text und sogar die von Word angezeigte Anzahl der Zeichen und Wörter sind identisch. Beide Dateien unterscheiden sich in der Größe auch nur um 1 Byte (17343 zu 17342 Bytes).

Ich habe schon sämtliche Dateifilter ausgeschaltet. Wenn ich von beiden jeweils ein Kopie erstelle, wird die jeweils als Duplikat erkannt, sodass ich dann nach der Suche zwei Gruppen habe, eben jeweils mit dem Original und seiner Kopie. Dass Word die Dateien wegen der Sicherheitseinstellungen nur in der geschützten Ansicht öffnet und ein Ändern und Speichern nicht zulässt, kann nicht der Grund sein, da dies bei den Kopien ebenfalls der Fall ist.

Da bin ich jetzt absolut ratlos. Woran könnte das liegen?

Edit:
Ein Dateivergleich mit einem Hex-Editor ergibt die Meldung, dass es inhaltlich keine Unterschiede zwischen beiden Dateien gibt, dass die Dateigröße aber unterschiedlich sei. Da sich die Größe auch laut Explorer-Anzeige um 1 Byte unterscheidet, ist das richtig.

Da als Suchmethode ausschließlich Dateiinhalt ausgewählt ist, müsste es demnach sogar bei einer Übereinstimmungseinstellung von 100 % das Duplikat erkennen, mindestens jedoch bei 99 %. Der Unterschied des einen Byte macht ja nicht mal 0,006 % aus.

Edit 2:
Die Duplikatsuchen von SearchMyFiles und CCleaner beziehen beide zum Dateiinhalt auch die Dateigröße zwingend mit ein. Die nützen hier zum Vergleich also nichts.

Edit 3:
Speichere ich die beiden RTFs jeweils neu als DOC ab, werden die beiden neuen DOCs mit 99 % Übereinstimmungsquote als Duplikat erkannt. Speichere ich sie als ODT ab, werden sie mit 100 % Übereinstimmungsquote als Duplikat erkannt. Bei RTF kann ich aber machen was ich will (unverändert oder identisch verändert und neu gespeichert), die beiden werden einfach nicht als Duplikate erkannt, obwohl der Hex-Editor keine Rohdatenunterschiede findet. Ich dachte ja, dass AllDup beim Inhaltsvergleich über "Byte für Byte" wie ein Hex-Editor vergleicht. Offenbar geschieht das aber anders.

Edit 4:
Die Aktionen unter Edit 3 wurden alle mit Microsoft Office 2016 ausgeführt. Nun habe ich die beiden Original-RTFs mal mit WordPad geöffnet und neu wieder als RTF gespeichert und siehe da, sie werden mit 100 % Übereinstimmungsquote als RTF-Duplikate erkannt. Auffallend dabei ist allerdings, dass beide danach exakt gleich groß sind, und zwar so groß, wie das größere der beiden Originale (17343 Bytes). Die gleiche Aktion mit Libre Office führt zum gleichen Ergebnis (neu als RTF speichern und Erkennung mit 100 % Quote), nur dass hier die Dateigröße dann größer, aber ebenfalls identisch wird. Das sieht so aus, als würde bei der Duplikatsuche von RTFs nur oder auch die Dateigröße verglichen.

Bei DOC funktioniert übrigens die Dateivorschau nicht. Da wird gar nichts angezeigt und die Vorschaufläche bleibt weiß. Für ODT gibt es wohl keine Dateivorschau. Die Erweiterung ist unter Dateivorschau ja nicht aufgeführt.
Administrator
Site Admin
Posts: 4047
Joined: 04 Oct 2004, 18:38
Location: Thailand
Contact:

Re: Inhaltlich identische RTFs auch bei 1% nicht erkannt

Post by Administrator »

Der Inhaltsvergleich wird nur bei Dateien mit der gleichen Dateigröße durchgeführt.
Ausnahmen sind MP3, JPG und Flac wegen den Meta-Tags.
Bei DOC funktioniert übrigens die Dateivorschau nicht
Das liegt am fehlenden oder deaktiverten IE-Plugin vom Office...
Post Reply