2010-05-10

■ MTG

昼から，共同研究のミーティング．

■ NLP.app

その後，NLP.app勉強会．詳しいことは， mamorukさんや syouさんが書かれているので僕は別に何も書くことがない:-p

一言で言えば，「チョーーー大規模なデータがあれば，こまけぇこたぁいいんだよ!!」ということである．んで，大規模なデータの処理には，「MapReduce」という技術を使うというわけ．そのオープンソース版が「Hadoop」で無料で使えるので，使っていきたい．

海外の授業のサイトを参考に，とりあえずは，インストールして動かしてみた．全部そこにやり方は書いてあるけど，文字を読むのが面倒くさいという人の為に， Ubuntu9.10でのコマンドラインを下に張っておくので参考に〜．

mkdir work; cd work //適当にディレクトリを作ってそこで作業
wget http://www.umiacs.umd.edu/~jimmylin/dist/cloud9-r0.2.tar.gz
tar xf http://www.umiacs.umd.edu/~jimmylin/dist/cloud9-r0.2.tar.gz
cd ./umd-hadoop-core/hadoop
wget http://ftp.riken.jp/net/apache/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
tar xf hadoop-0.20.2.tar.gz

echo $JAVA_HOME //もし環境変数$JAVA_HOMEが設定されていなければ適切に設定すること
  /usr/lib/jvm/java-6-sun/jre/
./bin/hadoop jar hadoop-0.20.2-examples.jar pi 10 100
cd  ../data
gunzip bible+shakes.nopunc.gz
cd ../
vi build.xml
 0.20.2用に二ヶ所バージョン番号を修正
sudo aptitude install ant
ant
cd build
jar cvf cloud9.jar *
cd ../hadoop/hadoop-0.20.2
./bin/hadoop jar ../../build/cloud9.jar edu.umd.cloud9.demo.DemoWordCount \
  ../../data/bible+shakes.nopunc demo 5 1
head demo/part-00000