2009-09-13

tomocha

tomochaの方針について再考. 製作当初から分かっていた事ではあるんだけど, いくつか文章を生成する方式を試してみて思ったのに, 生成したい文章についてもう少しクリアに目標を定めないと難しいな.

やはり,単純なマルコフ生成では意味の通る文が作れないし, 生成する文の"方向性"を"操舵"するのが難しい. 完全に人手で操れるようになると,それはそれでつまらないんだけどね. ただ,ルールベースでするにせよ, 適当に作った文章を良い方向にもっていくんじゃなくて, ある程度の生成のレールを用意しておいた方がいいな.

ちょっと抽象的な話だけど.

暗中模索の状態からは,少しは進展したかな.

ミーティング

夜はミーティング. 久しぶりに全員揃っての会議. 少しずつ具体化していけてる気がする. いやはや,みんなに頭が上がりません(^^;)

本日のツッコミ
mamoruk (2009-09-16 [Wed] 10:40)

言語モデルは N グラム以外にもたくさん研究があるので、もっと意味や統語に関する制約を使うモデルもありますよ。まあ、たぶん一番人間が読んで流暢に思うのは、文まるごと使うものだと思いますが、大規模データがないとスパースなので使えない、という問題があります(機械翻訳でも用例ベース翻訳はこの考え方に近いです。文まるごとではないですが)。単語の N グラムじゃなくて節の N グラムを使う折衷案もあったり。まあ、精度高くするためには犠牲にしないといけないものも多々あるので、そのあたりをエンジニアリングするのでしょう……。

shirayu (2009-09-16 [Wed] 11:32)

ありがとうございます,いま「確率的言語モデル」を読んでいるのですが,確率CFGなんてのもあるんですね.奥が深い…….
機械翻訳はもちろん原文をseedにするのですが,人工無脳は何をseedに選択するかが難しいですね.

mamoruk (2009-09-16 [Wed] 12:28)

機械翻訳だと
原文←→翻訳先の言語の文
の対訳コーパスを用いますが、人工無能であれば
発言1→発言2
というコーパス(たとえば IRC とか Twitter からクロールする)を用いれば、方向性があること以外は機械翻訳と使える道具はほとんど同じだと思います。
ある入力 x があったとき、出力 y を見つけるのに、x に似ている発言1を探してそれに対応する y を出せば用例翻訳とやっていることは同じです。統計翻訳と同じ仕組みでやることもできますね。
N グラム生成では一発ネタになってしまいますが、Noisy Channel モデルを用いた対話システムであれば、(先行研究がなければ)研究テーマになると思います。大規模コーパスと絡めれば EMNLP とか ACL とか通せるんじゃ? (このネタで突き進むべきか分かりませんが)

shirayu (2009-09-16 [Wed] 12:45)

なるほど,方向性ですね.
"方向性"というのが,いくつかのタイプに分かれるところも応答文生成の難しいところですね.
まずはログ収集ですっ!

mamoruk (2009-09-16 [Wed] 16:22)

方向性は分類できるのであればラベルをつければいい(コーパスを分ける)ので、機械翻訳で言えば分野適応と同じ問題なのかなと思います。研究としてやるなら、応答文の分類に関する論文を探すか、適当にランダムサンプリングして数百文くらい見て自分で分類してみて、ログ収集で解決できそうなのは全体のどれくらいか見てみる、というところからスタートでしょうか。CICP 的にはとにかくデモできればいいような気もしますが……

shirayu (2009-09-16 [Wed] 20:57)

機械翻訳の考え方も要調査ですね.
取り合えず人手でやってみる,っていうのはすごく大切だと色々な方から教えていただきました.
論文も参考にしつつ,データを眺めて見ることにします(`・ω・´)

mamoruk (2009-09-16 [Wed] 21:44)

ええ、それは研究としては大事だと思います。機械は人手でできる以上のことができるわけではないので、人手でやれないことを解かせようとしても無駄ですし……。
あまり discourage するつもりはないのですが、見当をつけないで「とりあえずやってみる」というのは、どこに石油があるのか調べないでひたすら掘り続けるようなもので、見込みがないところにいくら時間をかけても無駄です。もちろん掘る経験を得ることが主目的なら、石油が出る必要はないので、問題ないですし、CICP なら後者でも許容されるのではないかと……。
(エンジニア的にはけっこう後者の文化でリサーチでは前者でないとツッコミが来る文化だと思います)

shirayu (2009-09-17 [Thu] 00:17)

あ,取り合えずやってみるというのは,アタリをつけるためにと言う意味でもあります.
自分自身で体感すると,傾向というかそういうのが分かってくるところもある,とのことです.