2009-08-13

tomocha

昨日の続き.n-gramのデータを格納するに,生テキストだと明らかに処理効率が悪いので.色々と教えてもらってデータを管理するDBMを調べる.

Tokyo Cabinetsarytxなど,聞いたこともないものだが,mizunoさんに教えてもらう.これらは,mySQLよりも,用途によっては簡便に使えるらしい.データベース処理系と言えば,SQLしか知らなかったけど,こういうのもあるんだね.

TCをインストールして(もらって)試してみるも,Python bindingsからは,

現状では、Pythonのオブジェクトを保存したい場合には、
cPickle/pickleでのシリアライズ/デシリアライズは自前でやってね方針です。

とのことなので,少し使い勝手が悪い.どうしようか思案中.

(09/08/14追記)すごく簡単にできた.やってることはオブジェクトの符号化と復号化.

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import pytc #Tokyo Cabinetを使用できるようにする
import cPickle  #オブジェクトも格納できるようにする
db = pytc.HDB('test.db', pytc.HDBOWRITER | pytc.HDBOCREAT)
db['goods'] =  cPickle.dumps( {'A' : '400yen' , 'B' : '500yen'} )
print cPickle.loads(db['goods'])

Asadさんと夕食

今日はAsadさんに食事をご馳走していただく.ご馳走さまでした.