Vergleich von Formaten zum Speichern von Webseiten Claus-Philipp Carstens Hamburg, 2007-01-03 (rev. 2007-02-04) Einleitung Die Speicherung und Archivierung von Webseiten ist eine Aufgabe, der wir ständig gegenüber stehen, um flüchtige Webinhalte zum späteren Nachschlagen zu sichern oder offline eine Webseite zu lesen. Um die Authentizität und eine gute Lesbarkeit zu wahren, sollte die gespeicherte Webseite so originalgetreu wie möglich in Bezug auf Anzeige und Formatierung abgelegt werden. Ein weiteres Kriterium an die archivierte Webseite ist ein möglichst unabhängiges Format, das einen Austausch zwischen Browsern und Systemen ermöglicht. Dies ist bei einem Browserwechsel oder dem Austausch von Dateien zwischen verschiedenen Personen von Bedeutung. Im Folgenden werden verschiedene Formate und Programme zum Speichern von Webseiten betrachtet und verglichen. Für Tests zur Speicherung wurde unter anderem die Seite http://de.wikipedia.org/wiki/Hauptseite am 01. und 02. Januar 2007 verwendet. Dabei wurden folgende Browser eingesetzt: Microsoft Internet Explorer 6.0.2900.2180 Microsoft Internet Explorer 7.0.5730.11 Mozilla Firefox 2.0.0.1 Opera 9.10 Webseite, komplett (HTML und einzelne Dateien) Microsoft Internet Explorer 6 und 7 »Webseite, komplett (*.htm;*.html)« (erstellt HTML-Dateien und dazugehörige Ordner mit der Endung »-Dateien«) Mozilla Firefox 2.0.0.1 »Webseite, komplett« (erstellt HTML-Dateien und dazugehörige Ordner mit der Endung »-Dateien«) Opera 9.10 »HTML-Datei mit Bildern« (erstellt HTML-Dateien und dazugehörige Ordner mit der Endung »_files«) HTML ist ein offener Standard, der in allen Browsern anzeigbar ist. Dabei werden die einzelnen Bestandteile von Webseiten separat in Ordnern mit dazugehörigen HTML-Dateien, welche die entsprechenden Verlinkungen enthalten, gespeichert. Allerdings haben die Browser vielfach Probleme, eine Webseite korrekt abzuspeichern. Bei Tests (z. B. http://de.wikipedia.org/wiki/Hauptseite) kommt es bei allen eingesetzten Browsern häufig zu einer unterschiedlichen und lückenhaften Anzeige der gespeicherten Seite im Vergleich zur Originalseite in demselben Browser. Deswegen eignet sich diese Möglichkeit nicht zur ambitionierten Archivierung von Webseiten. Webarchiv (MHTML) Microsoft Internet Explorer 6 und 7 »Webarchiv, einzelne Datei (*.mht)« (erstellt eine Microsoft MHTML MHT-Datei) Mozilla Firefox 2.0.0.1 mit Mozilla Archive Format 0.6.3 (http://www.extensionsmirror.nl/extfirefox/ Mozilla_Archive_Format_0.6.3-rep.xpi. – Zugriff: 2007-01-02) »MAF Archive« (erstellt eine Mozilla MHTML MAFF-Datei) »MAF Zip Archive« (kein MHTML; erstellt eine ZIP-Datei mit HTML wie »Webseite, komplett«) »MAF MHT Archive« (erstellt eine Mozilla MHTML MHT-Datei) Opera 9.10 »Webarchiv (Eine Datei)« (erstellt eine Opera MHTML MHT-Datei) Bei MHTML (MIME HTML) werden die verschiedenen Bestandteile einer Webseite (z. B. Grafiken) in eine Datei zusammen mit dem HTML-Code gespeichert. Wie bei einer HTML E-Mail werden die Bestandteile durch MIME-Einbindung zusammengefasst. Dadurch wird die Umständlichkeit umgangen, die Bestandteile separat zu speichern und neu zu verlinken. Jedoch ist die Kompatibilität der verschiedenen MHTML-Dateien nicht so hoch wie bei separat gespeicherten Webseitenbestandteilen und HTML- Dateien. In verschiedenen Tests (z. B. http://de.wikipedia.org/wiki/ Hauptseite) erzeugt das Internet Explorer MHT-Format vollständige und korrekt dargestellte Webseiten bei Anzeige in demselben Browser. Ähnliche Ergebnisse liefert auch das Opera MHT-Format. Allerdings unterscheiden sich die MHTML-Formate der verschiedenen Browser und sind nicht vollständig untereinander kompatibel, so dass es zu Anzeigeunterschieden zwischen den Browsern kommt. Das Mozilla MAFF und MHT-Format erzeugen die schlechtesten Ergebnisse, die sich bei Anzeige in demselben Browser als unzureichend formatiert und lückenhaft darstellen. ScrapBook (Offline Browser Utility; HTML und einzelne Dateien) Mozilla Firefox 2.0.0.1 mit ScrapBook 1.2.0.8 (http://releases.mozilla.org/pub/mozilla.org/extensions/scrapbook/ scrapbook-1.2.0.8-fx+fl.xpi. – Zugriff: 2007-01-01) Das Mozilla Add-on ScrapBook speichert ähnlich wie bei »Webseite, komplett« HTML-Dateien und weitere zugehörige Dateien separat ab. Im Vergleich zu »Webseite, komplett« allerdings alles in einen Ordner. ScrapBook erzeugt vollständige und korrekt dargestellte Webseiten. Die Anzeigequalität dieser so gespeicherten Webseiten übertrifft »Webseite, komplett« bei Weitem und die Verwendbarkeit in anderen Browsern ist im Gegensatz zum MHT-Format flexibler. Allerdings können auch bei den mit ScrapBook gespeicherten Webseiten Anzeigeunterschiede im Vergleich zum Original bei Verwendung von anderen Browsern als Firefox auftreten. ScrapBook bietet außerdem die Funktion, Webseiten teilweise abzuspeichern (Auswahl durch Markierung) und zu bearbeiten (Kommentare und Hervorhebungen). HTTrack (Offline Browser Utility; HTML und einzelne Dateien) WinHTTrack Website Copier 3.40-2 (http://www.httrack.com/httrack-3.40-2.exe. – Zugriff: 2007-01-01) HTTrack liefert ähnlich gute Ergebnisse wie ScrapBook. Das Programm ist vielseitig konfigurierbar und dafür ausgelegt, komplette Webseiten zu spiegeln. So kann z. B. die originale Seitenstruktur der Verzeichnisse beibehalten werden, oder HTML-Seiten und Bilder werden zusammen oder getrennt in neu erstellte Verzeichnisse gespeichert. Zum Speichern von einer einzelnen Webseite ist ScrapBook wesentlich handlicher und komfortabler. Auch bei mit HTTrack gespeicherten Seiten kann es in einigen Browsern zu einer vom Original abweichenden Darstellung kommen (z. B. http://de.wikipedia.org/wiki/Hauptseite mit Microsoft Internet Explorer 6). Für Mozilla Firefox gibt es ein auf HTTrack basierendes Add-on namens SpiderZilla. Anmerkung Internet Explorer erlaubt beim Speichern von Webseiten (HTML und MHTML) eine Änderung der Kodierung (»charset«). Standardmäßig ist die Originalkodierung der abzuspeichernden Webseite voreingestellt. Firefox und Opera verwenden immer die Originalkodierung. ScrapBook erlaubt eine Änderung der Kodierung in UTF-8 (unter Extras > Einstellungen > Archivieren). Fazit Das Problem, eine Webseite möglichst originalgetreu und gleichzeitig browserunabhängig abzuspeichern, konnten ScrapBook und HTTrack am besten lösen. Die zur Darstellung einer Seite benötigten Dateien werden wie im Original einzeln gespeichert und sind durch Standards wie HTML in verschiedenen Browsern weiter verwendbar. Allerdings entspricht die Darstellung leider nicht in allen Browsern gleicht gut der Originalseite im jeweiligen Browser. Jedoch werden originale Webseiten vom Webserver auch nicht in jedem Browser genau gleich angezeigt und die Anzeigeunterschiede sind wesentlich geringer als bei einer browserübergreifenden Verwendung des MHTML-Formats. Dennoch hat beispielsweise das Internet Explorer MHT eine sehr originalgetreue Webseitendarstellung im Internet Explorer. Um die bestmögliche Originaltreue und Systemunabhängigkeit zu erreichen, empfiehlt es sich evtl. bei wichtigen Webseiten eine Kombination von verschiedenen Formaten zu archivieren. Dafür kommen Internet Explorer MHT als MHTML- Format und ScrapBook für die einzelnen Dateien einer Webseite (bei größeren Downloads HTTrack) in Frage. Links Diskussion: Webseiten speichern. – URL: http://www.firefox-browser.de/forum/viewtopic.php?t=45981 HTTrack. – URL: http://www.httrack.com/ Mozilla Archive Format. – URL: http://maf.mozdev.org/ ScrapBook. – URL: http://amb.vis.ne.jp/mozilla/scrapbook/index.php SpiderZilla. – URL: http://spiderzilla.mozdev.org/index.html Wikipedia: MHTML. – URL: http://en.wikipedia.org/wiki/MHTML