FrontPage
wikipediaとかmysqlとか †
女子のために贈る暇つぶし。英語は読めてください。日本語嫌い。
リンク †
- wikipedia dump jawikiが日本語enwikiは英語。pages-articles.xml.bz2が重要。
- wikipedia:Database download ここ見てわからないならmysqlはお勧めじゃありません。理由は以下
- ダンプデータが巨大なのでmysqlのデフォルトではまともに動かない(huge databaseの設定が必要
- TAが詳しいならいいけど、詳しくないと原因がわかんなくて鬱になること必至(俺は何度かやってるのでなんとかなるけど)
- だからデータ見るだけならwikifilterお勧め。比較的楽。実験の方法もついでに考え中(ぉぃ
- wikifilterで見る。windowsはこれが楽。初心者向け。
mysqlいらないんじゃない?という話。 †
実は重要なのは言語ごとのアルファベットの出現頻度だったり、単語の分布だったりする気がするので何も気にしないでxmlファイル全部を処理すればなんの問題もないような気がします。どうなんだろう。
純粋に統計処理するのであればtf/idfとかでも要らない情報取り除けたりするんじゃないのかなと思うけど、この辺は試したことがない。
それでもmysqlでやりたければ †
以下のURLとかがすごく参考になる気がします。(動作未確認