Personal tools

Views

xml2sqlによるWikipediaのクローン

written by 齊藤 貴義 on

xml2sqlを使えば迅速にWikipediaのダンプデータからクローンを作成できます(GFDLライセンス下においてです)。
まずxml2sqlをダウンロードしてインストールします。

$ tar xvfz xml2sql-0.5.tar.gz
$ cd xml2sql-0.5
$ ./configure
$ make
$make install

この時、expactが見つからないとエラーが出る可能性があります。
その場合はexpactのページからダウンロードしてインストールします。
私は最初expactの2.0.1を入れたのですが、xml2sqlでライブラリが不足していて動きませんでした。expact1.95.8を入れたら問題なく動作しました。

MediaWikiをインストールします。インストール方法は通常通りで問題ありません。私はMediaWikiの1.14.0版を落としてきて、XCacheを有効にしました。

さらにWikipediaのダンプデータのページから最新版のダンプデータを取得します。今回はjawiki-latest-pages-articles.xml.bz2(過去の履歴や利用者ページを含まない全ページ)を使用しました。これをxml2sqlでmysqlimportが可能な状態にします。

$xml2sql jawiki-latest-pages-articles.xml

page.txt、revision.txt、text.txtの3種類のファイルが生成されます。これをmysqlimportでデータベースに流し込みます。

$mysqlimport -u root –default-character-set=utf8 mediawiki -p -L /tmp/rivision.txt
$mysqlimport -u root –default-character-set=utf8 mediawiki -p -L /tmp/text.txt
$mysqlimport -u root –default-character-set=utf8 mediawiki -p -L /tmp/page.txt

これでデータ投入は完了ですが、クローンを目指すためには、このほかに下記データを展開してインストールする必要があります。

jawiki-latest-category.sql.gz
jawiki-latest-categorylinks.sql.gz
jawiki-latest-externallinks.sql.gz
jawiki-latest-interwiki.sql.gz
jawiki-latest-langlinks.sql.gz
jawiki-latest-templatelinks.sql.gz

また、日本語版Wikipediaで使われている下記の拡張機能を有効にする必要があります。

ParserFunctions
Cite

そうして完成したのが、次世代情報都市みらいwikiです。

関連する投稿

タグ:


2 Responses to “xml2sqlによるWikipediaのクローン”

  1. comment from taka

    このリンクが切れてます
    「そうして完成したのが、次世代情報都市みらいwikiです。」

  2. comment from さいとう

    >takaさん

    以前は公開していたのですが、Googleからスパム認定されて
    まったく検索に引っかからなくなり、このブログにも悪影響が
    及んだので現在は公開停止しています。ご理解頂ければと思います。

コメントをどうぞ

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <img localsrc="" alt="">