Wikipedia Diskussion:Technik/Datenbank/Download

Letzter Kommentar: vor 9 Jahren von 87.178.206.224 in Abschnitt Was ist was ?

Downloadgeschwindigkeit sinkt stark ab

Bearbeiten

Es ist mir nie möglich, den kompletten http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 herunterzuladen, weil die Übertragungsrate im Verlauf des Downloads einfach zu schwach wird. Lade in nem Uninetzwerk, die Bremse sitzt also beim Wiki-Server - nen Tip? Danke!

-- Zetode 17:46, 14. Mai 2009 (CEST)Beantworten

Dateinamen im HTML Download

Bearbeiten

Im HTML Download sind die Dateinamen verändert und eine Pfadstruktur nach Anfangsbuchstaben entsteht.

Einige Beispiele:

de/-/r/f/Benutzer_Diskussion~-RF-_bc03.html

de/-/2E/z/Benutzer_Diskussion~-.ZacK.-_0b22.html

de/0/0/7/007_James_Bond_greift_ein_9a9e.html

de/0/0/_/00_Schneider_?_Jagd_auf_Nihil_Baxter_a8f0.html

Meine Frage: was bedeutet die vierstellige Zahl nach dem Unterstrich - Zeitangabe? Version? Oder was ganz anderes? --Lorraineflack 10:00, 7. Dez. 2007 (CET)Beantworten


Nach SQL import, Artikel gelöscht

Bearbeiten

In meiner Wiki habe ich verschieden Artikel erstellt, dann spielte ich Wikipedia in meine Datenbank, plötzlich sind meine Ursprüngliche Artikel Weg. Wie kann ich das umgehen? andy

Nur mit einigem Aufwand, eigentlich fast gar nicht. Der Dump enthält als einen der ersten Befehle DROP TABLE xyz und CREATE TABLE xyz mit vollständigen Tabellendefinitionen. Man müsste diese Befehle aus dem Dump rausnehmen, bevor man ihn einspielt. Und selbst dann werden sich wahrscheinlich die Artikel-IDs gegenseitig in die Quere kommen. Daher sollte man wirklich für eigene Artikel und den Dump zwei getrennte Datenbanken aufsetzen. --Echoray 17:45, 28. Dez 2004 (CET)
ok, vielen dank. andy

Nur den Index herunterladen?

Bearbeiten

Gibt es eine Möglichkeit, nur den Index der Datenbank herunterzuladen? Ich möchte von einem Programm aus ausschließlich SQL Abfragen stellen, die zurückgeben, ob zu einem bestimmten Begriff ein Artikel in Wikipedia vorhanden ist, oder nicht. Da wäre es ja überflüssig die ganze Datenbank mit fast 400 Mb herunterzuladen, wenn auch ein Index mit ein paar hunder kB ausreichen würde.

Es gibt die Datei http://download.wikimedia.org/wikipedia/de/all_titles_in_ns0.gz - das ist allerdings kein SQL-Dump, sondern einfach eine Textdatei mit den Titeln aller Artikel in der deutschen Wikipedia. --Echoray 17:14, 10. Jun 2005 (CEST)
Vielen Dank! Genau danach habe ich gesucht. Eine Textdatei reicht zur Suche völlig aus.
Der Link funktioniert leider nicht mehr!

importDump.php

Bearbeiten

Kann es sein, dass die Datei im MediaWiki 1.4.10-Release (stable) nicht mit drin ist? Ggf auf der Seite darauf hinweisen --M3ax 01:30, 30. Sep 2005 (CEST)

20050921-Dump

Bearbeiten

Mir kommt der 20050921-Dump zu klein vor. Ist er defekt

Der neueste Dump ist mit bzip2 komprimiert. Dieses Programm schafft eine höhere Kompression. Die Dateien müssten in Ordnung sein. --Echoray 11:29, 1. Okt 2005 (CEST)
Bearbeiten

Nach mehreren Versuchen mit dem Import der article.xml Datei vom 20.10.2005 bin ich etwas am Rätseln. Die Datei wurde mit importDump.php und anschliessendem refreshLinks.php geladen. Leider habe ich immer noch das Problem, dass die Seiten noch Inhalte/Verweise in anderen Sprachen aufweisen.

Z.B. bei 'Aluminium' erscheint auf der Seite:

ar:ألمنيوم ca:Alumini cs:Hliník da:Aluminium en:Aluminium eo:Aluminio es:Aluminio et:Alumiinium fi:Alumiini fr:Aluminium gd:Alman he:אלומיניום hr:Aluminij hu:Alumínium id:Aluminium io:Aluminio is:Ál it:Alluminio ja:アルミニウム ko:알루미늄 ku:Bafûn lt:Aliuminis lv:Alumīnijs mi:Konumohe nl:Aluminium nn:Aluminium no:Aluminium pl:Glin pt:Alumínio ru:Алюминий simple:Aluminium sl:Aluminij sr:Алуминијум sv:Aluminium th:อะลูมิเนียม uk:Алюміній vi:Nhôm zh:铝

Kann man das irgendwie beheben?

Danke. --mschubi


Diese Interwikilinks sind Teil des Artikeltextes. In der Online-Wikipedia werden sie herausgefiltert und in der Seitenleiste angezeigt, weil die zustaendige Datenbanktabelle "interwiki" die Informationen ueber intern verlinkbare andere Projekte bereitstellt. Ohne diese Informationen wird "[[en:Aluminium]]" als interner Link interpretiert. Die interwiki-Tabelle wird zum Download angeboten, in der Version, wie sie in der Online-Wikipedia verwendet wird.
Falls du dagegen die Interwikilinks komplett aus den Seiten entfernen willst, sehe ich zwei Moeglichkeiten, die beide umstaendlich sind:
  • Entferne diese Links aus allen Artikelquelltexten. Das ist z.B. mit reinem SQL moeglich, aber ziemlich umstaendlich, da du die Links fuer alle Sprachen korrekt identifizieren musst. Das muesste dann mit jedem neuen Dump gemacht werden. Hier waere es wahrscheinlich am geschicktesten, ein externes Filterprogramm zu schreiben, dass den Dump vor oder waehrend des Imports modifiziert (in der Art "gunzip -c dump.xml.gz | removeInterwiki | mysql").
  • Mit einer (mir unbekannten) Modifikation der php-Dateien laesst sich erreichen, dass die Interwikilinks zwar korrekt aus dem angezeigten Seitentext entfernt wird, aber nicht in der Seitenleiste erscheinen. Das muesste "nur" mit jedem Update der Software gemacht werden.
--SirJective 13:52, 3. Nov 2005 (CET)

Bilderdownload als Thumbs

Bearbeiten

Währe es möglich die Bilddatein auch als verkleinerte Thumbnails angeboten zu bekommen? Die 25.2 GB sprengen einfach etwas meine DSL-Leitung zumal man ja die Commons auch noch braucht. Kolossos 16:22, 24. Nov 2005 (CET)

recount.sql nicht mehr enthalten?

Bearbeiten

Ist recount.sql nicht mehr in v1.5 enthalten? Erstens finde ich dies in meiner Installation nciht, zweitens hab ich diesen Satz ergoogled: "(bug 3734) Swapped out obsolete recount.sql with initStats.php". --Nyks 02:19, 10. Jan 2006 (CET)

Bilder in Wikipedia einspielen

Bearbeiten

Ich habe folgendes Problem: Ich habe es geschafft die 25GB Bilder herunterzuladen, und habe das tar-Archiv auf meinem Linux Server unter /var/www/mediawiki/images/ entpackt.

Dann habe ich die xml Datei heruntergeladen und mit bzcat eingespielt.

Was muß ich sonst noch machen um die Bilder anzeigen zu lassen?? Das funktioniert nämlich nicht. Wenn ich den Wikipedia über einen Browser aufrufe werden die Bilder nicht angezeigt!

Danke schon mal für die Hilfe Gruß Flave

Der reinste Entwicklerjargon :))

Bearbeiten

Aber ehrlich. Ich hab das grade mal etwas lexikalischer zu formulieren versucht; dass die Performance "beim Teufel" ist, erzähle ich einem Kollegen auch am Telefon, allerdings muss das nicht unbedingt hier sein (finde ich) -andy 217.91.47.231 10:29, 16. Feb 2006 (CET)

Bearbeiten

Nach SIEBEN Tagen nervtötender Arbeit, um mir als hübsch anwendungsbezogener Normalo eine Offline-Wikipedia zu erstellen, habe ich ein Anleitung für Surf&Email-Windows-Nutzer geschrieben und hoffe, dass sie verständlich ist. Grüße, Nasenbart

Und wo kann man die nachlesen? --Gruss Mabba 04:31, 10. Mai 2010 (CEST)Beantworten

Was mache ich Falsch

Bearbeiten

Hallo, ich habe heute alles installiert und dann die Dump Datei(dewiki-20060220-pages-articles.xml) eingespielt. Dannach habe ich von meinem Rechner den Suchindex erneuern lassen (per rebulidtextindex.php) Sowohl der Import als auch das Neurechnern des Index werden ohne Fehlermeldung durchgeführt.

Wenn ich aber jetzt aber einen Artikel suche z.b. Berlin bekomme ich im internet gleich Berlin angezeigt. In meiner lokalen Variante bekomme ich dann zwar auch eine suchseite, die ist aber deutlich anders als die von der Internetversion.

Anderes Beispiel:

Wenn ich im internet nach meiner Heimatgemeinde Sande (Kreis Friesland) suche, bekomme ich eine seite in der alle Gemeinden in dennen Sande vorkommt angezeigt.

Suche ich jetzt lokal bekomme ich nicht diese Seite.

Wer kann mir helfen?

Mathematische Formeln?

Bearbeiten

Bei meiner lokalen wiki-installation werden die mathematischen Formeln nicht angezeigt. Fehlt da ein Plugin?

Kann Dump nicht entpacken

Bearbeiten

Ich habe mir gerade folgende Dateien runtergeladen:

  • dewiki-20060501-pages-articles.xml.bz2
  • dewiki-20060515-pages-articles.xml.bz2

Beim Entpacken mit WinRar und Biz2 tritt bei beiden Dateien der Fehler Unexpected end of archive auf. Hat jemand eine Idee woran das liegen und wie ich das beheben kann?

Die Datei dewikiquote-20060527-pages-articles.xml.bz2 konnte ich übrigens problemlos entpacken.

Gruß --OHVChris75 15:24, 2. Jun 2006 (CEST)

Mac Software

Bearbeiten

Guten Abend!

Ich weiß nicht, ob ich hier richtig bin.

Ich wollte nur mal nachfragen, ob jemand weiß, ob die Wiki Downloads auchirgendwo für Mac OS X verfügbar sind.

Leider konnte ich dazu in den FAQ keine Infos finden, wohl aber darüber, dass man gesperrt wird, wenn man zuviel und zu oft stöbert.

Ich glaube, dass mir das vor 2 - 3 Wochen auch mal passiert ist, es sei denn, die Seite hätte damals wirklich jeden Abend Schwierigkeiten gehabt, wovon ich allerdings nicht ausgehe.

Leider gibt es überall nur Hinweise für Windwos, zu Mac habe ich dazu nichts gefunden.

es liegt aber nicht in meiner Absicht, den Server regelmäßig mit Anfragen zuzuspammen, aber ich stöbere halt gern im Wiki und wenn das anders auch funktionierte, wäre ich sehr froh drüber.

Vielleicht hat ja hier jemand Infos, wo ich diese Software herbekommen könnte.

Danke im Voraus.

DNA 21:37, 26. Sep 2006 (CEST)


static und dump

Bearbeiten

Wer ist denn für dump.wikipedia.org bzw static.wikipedia.org verantwortlich? Bei mir funktioniert das browsen der "static wikipedia" nicht. [1]} --84.56.145.254 15:11, 24. Feb. 2008 (CET)Beantworten

Gibt es bei der Verwendung der html-Version etwas zu beachten?

Bearbeiten

Hallo zusammen,

Ich habe die htm-Version heruntergeladen und die Datei wikipedia-de-html.7z entpackt. Allerdings funktioniert weder die Suche, noch kann ich einem Link folgen. Ich erhalte stets die Fehlermeldung, dass die Seite nicht gefunden wurde. Was mache ich falsch? Welchen Zweck haben die Dateien html.lst und skins.lst ? Vielen Dank im Voraus --Horsefreund 16:45, 9. Mär. 2008 (CET)Beantworten

Verschieben nach Wikipedia:Herunterladen

Bearbeiten

Würde was dagegen sprechen?

Dumps

Bearbeiten

Hi, was ist bei den Dumps eigentlich der Unterschied zwischen:

  • All pages with complete page edit history (.bz2)
  • All pages with complete edit history (.7z)

Das Packformat ist mir schon klar, aber was ist der Unterschied zwischen "page edit history" und "edit history"? Es muss ja einen geben, nur das "andere" packen kann ja bei de.wp nicht länger als 9 Tage dauern... --APPER\☺☹ 18:43, 8. Nov. 2008 (CET)Beantworten

Bilder unauffindbar

Bearbeiten

Hallo, wie kann ich die Bilder mitdownloaden? Ich finde den passenden Link nicht. Danke! --86.33.145.32 16:04, 15. Mär. 2009 (CET)Beantworten

endungen

Bearbeiten

ich brauche dateien mit den endungen .ao1 .ao2 .dba .idx .ifo wie bekomme ich die?

Siehe [2] -- 91.49.38.186 21:52, 14. Jan. 2012 (CET)Beantworten

Download von Hauptkategorien

Bearbeiten

Um das komplette Wikipedia-Archiv herunterzuladen braucht man Geduld und muss auf eine gute Bildqualität verzichten. Meist benötigt man nicht das komplette Wiki, sondern bestimmte Teile, z.B. für eine Referatsvorbereitung. Daher wäre es interessant, wenn man die Möglichkeit hätte nur eine Hauptkategorie herunterzuladen. Da diese Files kleiner wären, könnten sie mit entsprechend besseren Bilddaten ausgestattet werden um diese mit Wikitaxi offline zu lesen.

SSch--

html-Dump Wiki.de

Bearbeiten

Wann ist mit einem neuem html-Dump der deutschen Wikipedia zu rechnen? Als Folge davon würde auch mal wieder eine neue Version für den Mobipocket-Reader kommen.

JR

Soweit ich weiß wurden die HTML-Dumps eingestellt. Ich kann vllt. mal einen generieren, wenn ich Zeit und Rechenleistung haben -- FlySoft (Diskussion) (18:39, 16. Jul 2012 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)
Bearbeiten

Klickt man auf den Link für die HTML-Version, erscheint nur eine dubiose Liste mit seltsamen Extensions, aber keine wikipedia.html oder sowas ähnliches, was man downloaden kann!

Schön, daß man hier so ausführliche Antworten bekommt!

HTML Dump liefert nur kaputte Dateien?!

Bearbeiten

Ich habe jetzt schon zum dritten Mal versucht, den HTML-Dump herunterzuladen, aber es gibt andauernd Verbindungsabbrüche (0 Bytes/Sekunde für mehrere Minuten) und die nach 24 Stunden dann endlich fertige 7z-Datei hat an diversen Stellen CRC-Fehler, die sich nicht korrigieren lassen. Das Problem habe ich sowohl bei der deutschen als auch der englischen Version. Was mache ich falsch?

-- Niwax 17:47, 4. Sep. 2010 (CEST)Beantworten

Kiwix

Bearbeiten

Hallo ThurnerRupert, kannst du mehr zu Kiwix schreiben? --Ziko 17:25, 7. Mai 2011 (CEST)Beantworten

Torrents

Bearbeiten

Besteht Interesse, die Torrent-Links von Burnbit einzufügen? En macht das schon und es funktioniert recht gut. Wenn niemand die Dateien seedet, lädt man vom Wikimediaserver, so dass man immer eine gute Geschwindigkeit hat. Laden mehrere gleichzeitig, werden so die Server entlastet. --(Saint)-Louis (Diskussion) 19:34, 2. Jul. 2012 (CEST)Beantworten

allerdings nicht in der allerneuesten Version

Bearbeiten

Warum nicht??--79.244.169.18 22:53, 8. Mär. 2014 (CET)Beantworten

mehrfach leere page-titles im Dump dewiki-20140320-pages-articles-multistream.xml.bz2 mit mwdumper-1.16.jar

Bearbeiten

Wenn ich dewiki-20140320-pages-articles-multistream.xml.bz2 mit mwdumper-1.16.jar importiere bekomme ich 41 Seiten wo page_title = '' und page_namespace = 0 ist.

Das führt zu einer Unique Index verletzung. Ich habe collation der tables auf binary gestellt, also das sollte nicht das Problem sein.

Die Id's sind '2579043', '2671563', '2671567', '2715365', '2715366', '2715368', '2715369', '2715371' ,'2715372' ,'2715373' ,'2715374' ,'2715538' ,'2715539', '2715540', , 2715541', '2715825', '2715826', '2722488', '2722501', '2722560', '2722678', '2724856', '3353978', '3353979', '3353980', '3354017', '3382561', '3382577', '3382578', '3382579', '3382601', '3908138', '3908147', '3908692', '4228840', '5212713', '5863656', '6456165', '7557887', '7583138', '8124175'

Der Dump enthält für diese IDs sehr wohl einen Title. Ist mwdumper fehlerhaft? Gibt es aktuellere builds als 1.16 zum download? (Ich habe es nicht geschafft von Source zu bauen.) PeterSchueller (Diskussion) 09:17, 21. Apr. 2014 (CEST)Beantworten

Was ist was ?

Bearbeiten

Mir ist völlig unklar, welche Dateien man braucht. Zwar sind mir die Unterschiede zwischen den unterschiedlichen Dateiformaten klar, aber nicht was "abstract", "all-titles", "category" usw. sein soll.

Eigentlich wollte ich einen kompletten Download, um mir eine meinen eigenen Wünschen entsprechende Offline-Version durch Löschen für mich unbedeutender Beiträge erstellen zu können.

Was ist was ? Welche Sachen muß ich runterladen ?--87.178.206.224 10:26, 27. Nov. 2014 (CET)Beantworten