NJCollector
以前やっていたこういうのに使えるアプリ、NJCollectorを紹介します!
つかいかた
どうやって使うの!?オーケー、焦るでないぜ…まず、解析用のテキストデータを用意しないとはじまらない。NJCollectorが食べられるのは、UTF-16のテキストファイルだけだ!まずそれを用意しよう。テキストファイルができたら、「Calculation」タブにそれをドラッグ&ドロップするんだ。
エッそんなテキスト用意してない!大丈夫。NJCollectorはもともとニンジャスレイヤー研きゅう家ようにかいはつされたから、TogetterまとめをUTF-16のテキストにしてくれる機能を持っているんだ。「Download」タブにURLを列挙しよう。複数のURLを入れると、全部繋げて一つのテキストにするから注意してくれ。「ダウンロード」フォルダに入るよ。あとね、青空文庫のXHTMLページでもいいよ。
で、テキストファイルには英数字で名前をつけた方がいい。これは、後述するRで日本語が表示できないからだ。あとアイキャッチとか結果に影響を与えそうな文字列は外したりしよう。
おすすめ設定は上の通りだ。最大文字列長30000文字、「Except Self-Conjunction」をオン(これはテキストAとテキストAを繋げて圧縮という意味のない行為をしないオプションだ)、「Relative」をオン(これは得られた圧縮改善係数を、クラスタリングに備えて0〜1の値に相対化するオプションだ)。
「Calculate...」を押すと、計算結果のCSVファイルをどこに保存するか聞いてくる。デスクトップを汚すのはやめよう!
Rでニンジャクラスタリング
CSVファイルができたら、中を見て首をひねったりしよう。それからRでクラスタリングをして、もっともらしい系統樹を描くんだ。それにはRが要る。インストールしてくれ。
R: The R Project for Statistical Computing
うまくインストールできて、起動できたら、作業ディレクトリを設定しよう。「その他」メニューにある。さっきCSVファイルを保存したディレクトリを選ぶこと。
さあここからだ!Rのコンソールに以下を打ち込むんだ。
plot(hclust(dist(read.csv("result.csv", header = TRUE, row.names = 1)),"ward.D"))
「result.csv」のところはさっき保存したファイル名にしてくれ。もったいつけてからリターンキーを押そう。
やったぜ!