2010-05-10

MTG

昼から,共同研究のミーティング.

NLP.app

その後,NLP.app勉強会. 詳しいことは, mamorukさんsyouさんが書かれているので僕は別に何も書くことがない:-p

一言で言えば,「チョーーー大規模なデータがあれば, こまけぇこたぁいいんだよ!!」ということである. んで,大規模なデータの処理には,「MapReduce」という技術を使うというわけ. そのオープンソース版が「Hadoop」で無料で使えるので,使っていきたい.

海外の授業のサイトを参考に, とりあえずは,インストールして動かしてみた. 全部そこにやり方は書いてあるけど,文字を読むのが面倒くさいという人の為に, Ubuntu9.10でのコマンドラインを下に張っておくので参考に〜.

mkdir work; cd work //適当にディレクトリを作ってそこで作業
wget http://www.umiacs.umd.edu/~jimmylin/dist/cloud9-r0.2.tar.gz
tar xf http://www.umiacs.umd.edu/~jimmylin/dist/cloud9-r0.2.tar.gz
cd ./umd-hadoop-core/hadoop
wget http://ftp.riken.jp/net/apache/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
tar xf hadoop-0.20.2.tar.gz
echo $JAVA_HOME //もし環境変数$JAVA_HOMEが設定されていなければ適切に設定すること
  /usr/lib/jvm/java-6-sun/jre/
./bin/hadoop jar hadoop-0.20.2-examples.jar pi 10 100
cd  ../data
gunzip bible+shakes.nopunc.gz
cd ../
vi build.xml
 0.20.2用に二ヶ所バージョン番号を修正
sudo aptitude install ant
ant
cd build
jar cvf cloud9.jar *
cd ../hadoop/hadoop-0.20.2
./bin/hadoop jar ../../build/cloud9.jar edu.umd.cloud9.demo.DemoWordCount \
  ../../data/bible+shakes.nopunc demo 5 1
head demo/part-00000