Wortliste erstellen, Liste mit deutschen und englischen Wörtern
Für mein letztes Projekt (Lösungshilfe für das Handyspiel 4Bilder1Wort) brauchte ich eine Liste mit deutschen Wörtern. Beim Suchen im Internet fand ich zwar viele kommerzielle Angebote aber nichts brauchbares, das man kostenlos runter laden kann. Da kam mir die Idee, eine Wortliste aus allen Artikeln von Wikipedia zu erstellen.
Download freie und kostenlose deutsche und englische Wortlisten
Wer nur die Liste mit den Wörtern braucht, kann sie sich hier kostenlos runter laden: (Lizenz Creative Commons - Weitergabe unter gleichen Bedingungen 3.0 wie Wikipedia)
Alle Wörter aus der deutschen Wikipedia | word_list_german_all.txt.7z |
Alle mit Rechtschreibprüfung geprüften Wörter aus der deutschen Wikipedia | word_list_german_spell_checked.txt.7z |
Alle mit Rechtschreibprüfung geprüften Wörter ohne Groß- und Kleinschreibung aus der deutschen Wikipedia | word_list_german_uppercase_spell_checked.txt.7z |
Alle Wörter aus der englischen Wikipedia | word_list_english_all.txt.7z |
Alle mit Rechtschreibprüfung geprüften Wörter aus der englischen Wikipedia | word_list_english_spell_checked.txt.7z |
Alle mit Rechtschreibprüfung geprüften Wörter ohne Groß- und Kleinschreibung aus der englischen Wikipedia | word_list_english_uppercase_spell_checked.txt.7z |
Wer sich selbst eine Liste mit deutschen oder englischen Wörtern erstellen will, sollte noch weiterlesen.
Wörterlisten aus Artikeln von Wikipedia erstellen
Open ZIM
Alle Artikel von Wikipedia sind auch offline verfügbar, um sie z.B. auf mobilen Geräten zu lesen. Die gesamten Artikel liegen komprimiert im Open ZIM Format vor und können z.B. bei https://download.kiwix.org/zim/wikipedia runter geladen werden.
libzim
Zum Lesen und verarbeiten der Artikel gibt es die libzim. Das ist eine C++ Bibliothek, die einen einfachen Zugriff auf den Inhalt des Archivs bietet. Das die Bibliothek in C++ geschrieben ist ist für mich in diesem Fall ein Nachteil, da ich das Programm zum Erstellen der Wortlisten in C# programmiert habe. Das Einbinden von C Bibltiotheken ist einfach, C++ Bibliotheken sind aber ein Problem. Ich habe das Problem mit einer C Bibliothek als Wrapper gelöst, die mir nach außen ein C interface anbietet.
Rechtschreibprüfung
Zum Prüfen der Rechtschreibung der gefundenen Wörter bietet sich das bei Linux mit installierte Hunspell an. Theoretisch könnte man sich auch Wortlisten von Hunspell generieren lassen. Das Problem sind aber zusammen gesetzte Wörter, die zwar von der Rechtschrebung her korrekt sind, aber von der Bedeutung keinen Sinn ergeben. Diese Wörter will man ja nicht in der Wortliste haben.
Programm zum Erstellen der Wortlisten
Das Programm zum Erstellen der Wortlisten ist in C# unter Linux mit Monodevelop geschrieben. Es gibt eine Version mit GUI und eine Version für die Kommandozeile. Die GUI ist sehr einfach gehalten. Ich hoffe das die Bedienung soweit selbsterklärend ist. (Lizenz GPL v3)
Download Sourcecode und Binärdatei: Woerterbuch.zip
(Die Binärdatei ist im Verzeichnis WoerterbuchGUI/bin/debug zu finden.)