[[FrontPage]]

*wikipediaとかmysqlとか [#mcf947f2]
女子のために贈る暇つぶし。英語は読めてください。日本語嫌い。

*リンク [#u559ce9f]
- [[wikipedia dump>http://download.wikimedia.org/backup-index.html]] jawikiが日本語enwikiは英語。pages-articles.xml.bz2が重要。
- [[wikipedia:Database download>http://en.wikipedia.org/wiki/Wikipedia:Database_download]] ここ見てわからないならmysqlはお勧めじゃありません。理由は以下
--ダンプデータが巨大なのでmysqlのデフォルトではまともに動かない(huge databaseの設定が必要
--TAが詳しいならいいけど、詳しくないと原因がわかんなくて鬱になること必至(俺は何度かやってるのでなんとかなるけど)
--だからデータ見るだけならwikifilterお勧め。比較的楽。実験の方法もついでに考え中(ぉぃ
-wikifilterで見る。windowsはこれが楽。初心者向け。
-- [[browsing wikidump with wiki filter>http://en.wikipedia.org/wiki/Wikipedia:Database_download#Dynamic_HTML_generation_from_a_local_XML_database_dump_.28WikiFilter.29]]ここに書いてあるとおりやればいける
-- [[wiki filter>http://wikifilter.sourceforge.net/]]

*mysqlいらないんじゃない?という話。 [#dd936485]
実は重要なのは言語ごとのアルファベットの出現頻度だったり、単語の分布だったりする気がするので何も気にしないでxmlファイル全部を処理すればなんの問題もないような気がします。どうなんだろう。

純粋に統計処理するのであればtf/idfとかでも要らない情報取り除けたりするんじゃないのかなと思うけど、この辺は試したことがない。

*それでもmysqlでやりたければ [#m18b2f6c]
以下のURLとかがすごく参考になる気がします。(動作未確認
-http://www.pilhokim.com/pilhowiki/index.php?title=EChronicle:Importing_Wikipedia

*その他 [#gc7d5257]
-コーパスがあれがいいというだけならぐぐってみると出てくるかも?(英語とか日本語は結構ある。大学利用は無料だったり
--http://googlejapan.blogspot.com/2007/11/n-gram.html
--http://en.wikipedia.org/wiki/Text_corpus

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS