NJCollector - NJRecalls開発アジト

f:id:NJRecalls:20160630204604p:plain

以前やっていたこういうのに使えるアプリ、NJCollectorを紹介します！

つかいかた

どうやって使うの！？オーケー、焦るでないぜ…まず、解析用のテキストデータを用意しないとはじまらない。NJCollectorが食べられるのは、UTF-16のテキストファイルだけだ！まずそれを用意しよう。テキストファイルができたら、「Calculation」タブにそれをドラッグ＆ドロップするんだ。

f:id:NJRecalls:20160630204438p:plain

エッそんなテキスト用意してない！大丈夫。NJCollectorはもともとニンジャスレイヤー研きゅう家ようにかいはつされたから、TogetterまとめをUTF-16のテキストにしてくれる機能を持っているんだ。「Download」タブにURLを列挙しよう。複数のURLを入れると、全部繋げて一つのテキストにするから注意してくれ。「ダウンロード」フォルダに入るよ。あとね、青空文庫のXHTMLページでもいいよ。

f:id:NJRecalls:20160630204611p:plain

で、テキストファイルには英数字で名前をつけた方がいい。これは、後述するRで日本語が表示できないからだ。あとアイキャッチとか結果に影響を与えそうな文字列は外したりしよう。

f:id:NJRecalls:20160630204438p:plain

おすすめ設定は上の通りだ。最大文字列長30000文字、「Except Self-Conjunction」をオン（これはテキストAとテキストAを繋げて圧縮という意味のない行為をしないオプションだ）、「Relative」をオン（これは得られた圧縮改善係数を、クラスタリングに備えて0〜1の値に相対化するオプションだ）。

「Calculate...」を押すと、計算結果のCSVファイルをどこに保存するか聞いてくる。デスクトップを汚すのはやめよう！