2006-01-01から1年間の記事一覧

起きたら13時だった

これはもうダメかも分からんね

今日やったこと。

卒論の中間発表が近いので火曜までにプレゼンの用意をしておけと言われる。一晩あれば書けると信じて今日はnステップTDからTD(&lambda)までの理論を調べていた。 TD(&lambda)は結局のところ1-step-returnからn-step-returnまでの全ての収益に対して0≦&lambda…

NAISTから合格通知がきたよ

しかも「あなたは非常に優秀な成績で合格されたので云々・・・」とかいてある。あれれおかしいなギリギリだと思ったんだがな。成績優秀者は優先的に入寮できて第一種の奨学金を受けられるらしい。うほ。無利子はかなりありがたいです。 入学意志確定の為の書…

デスノート12巻

DEATH NOTE (12) (ジャンプ・コミックス)作者: 小畑健,大場つぐみ出版社/メーカー: 集英社発売日: 2006/07/04メディア: ペーパーバック購入: 1人 クリック: 95回この商品を含むブログ (516件) を見る昨日買ってきてたやつを読んだ。さんざん言われていたこと…

エージェントアプローチ 人工知能 を読む

エージェントアプローチ 人工知能作者: スチュワートラッセル,ピーターノーヴィグ,Stuart Russell,Peter Norvig,古川康一出版社/メーカー: 共立出版発売日: 1997/12メディア: 単行本購入: 2人 クリック: 48回この商品を含むブログ (21件) を見るカテゴリつく…

Robocup3D

その後学校へ行った。 学生プロジェクトでお金を貰えたらしいrobocupのシミュレーションリーグをやっているチームがあって、そこの3年生のノートにGentoo-Linuxと、portageになってるRobocup3Dのシミュレータをインストールしてあげて帰ってきたら21時。一…

NAIST合格

10時発表だった。一時間前からそわそわ。時間ちょうどにNAISTのHPのトップに出る。見る。 あったよ!クララがあったよ! 発表で浮かれているところに速達で東工大の受験票が届いた。研究内容の点で奈良が第一志望だったこともあり、指導教官と相談した結果…

Xのネットワーク透過性を使ってマルチディスプレイを実現する。

要するに他のPCへX-Windowを転送して、さらにそこを転送元から操作しようということ。 まず、転送先PCのxhostで転送元のアドレスを登録しておく。 転送元PCにx2xをインストールする。これで転送元のキーボードで転送先のX-windowを操作できるようになる。 $ …

プレ中間発表を控えて

卒業研究にあたっては中間発表があるが、うちの研究室では二回やるらしい。8月の頭にプレ中間発表、10月には中間発表、来年2月に卒研発表の本番がある。プレ中間では選択したテーマの周辺を説明して今後のロードマップを示すという感じだけど、この三ヶ…

on-policyとoff-policy

Suttonの教科書に良く出てくる表現で、学習の過程で方策の評価、改善が行われるものをon-policy、そうではないものをoff-policyと呼ぶ。on-policyの手法としては動的計画法*1やSarsaがあり、off-policyの手法にはQ-learningがある。Q-learningは価値の更新を…

NAIST受験

奈良の空は青かった… 昨日のことだけど、NAIST*1受けてきました。昼過ぎ奈良に到着。大学までのバスが一時間に一本しかない。異様に暑い。大学までバスに揺られること三十分。着いた。キャンパスには人が少なかった。NAISTの試験は面接のみであるため、四日…

あ、ありのまま起こったことを話すぜ!

動的計画法

先達が「方策勾配法による状態空間の削減」というものを研究しておられるようなので、それを利用して階層化を試みる。少ない状態空間による学習を上位層に置いて、下位層の具体的な学習に影響を与える。方策勾配法が非ブートストラップ手法*1なので下位層に…

ほぼ一ヶ月ぶりですなw

ここ一ヶ月の間は受験勉強に費やすという目標を達成できたかどうか… なんにせよ13日にNAISTの口頭試問なのでリアルでガクブルである。プレゼンテーションで何を話すか決めないといけない。マンマシンインターフェースにおいて人間からだけでなく機械の方か…

研究室のホワイトボードの落書き。愚夫。 はてなダイアリーって画像をうpしても小さく角に出るのみだったんだけど仕様が変わった?みたい。はてなフォトライフというのが使えるようになってる。便利な時代になりました。せっかく携帯にカメラついてることだ…

リーンの翼

今日バンダイチャンネルでリーンの翼2話まで見た。いきなりすごい密度。ブレンパワードのときも説明不足とかさんざん言われていたけど、結局そういうのはネットとかで補完的に用語集のようなものを出してくれれば十分で、作中ですべて丁寧に説明していなけ…

大学院入試の願書と一緒に小論文を提出する必要があるらしい。

今現在やっている研究のこと、そこの大学に入って何がしたいのか、その動機についてA4で2ページにわたり書き連ねる。 ということで自分は最終的に何がしたいのかを考えてみる。少し大風呂敷を広げるくらいがちょうどいいよね。 要約すると、科学技術の進歩…

強化学習の階層化

実際目に見えているobjectについて考えることよりもある程度抽象化された形で考えた方が楽だ。だから具体的なこと(e.g.チェスの盤上の配置)から抽象的なより上位のレベル(e.g.定石や戦略)への変換が必要になる。上位のレベルではtrivialなことは捨象され…

emacs+辞書まわり

SDICが遅いのでそのうち英辞郎を買ってきてFreeWPING化してlookupで参照できるようにしておこうと思っていた。 lookup, ebnetd, freewping, jcode.plなどをportsからインストールする。検索したら関連した記事が出てきたけどGoogleのCacheに残っているのみだ…

期待値一定とはどういうことか

強化学習や疑似焼きなまし法での行動選択確率の確率分布にはボルツマン分布がよく用いられる。 ボルツマン分布は「確率の和が1」、「期待値一定」という二つの制約条件の下でエントロピーを最大化させたときに出てくる確率分布。 期待値が出てくるというこ…

for文

LISPにはfor文がない。それはループは再帰で書いた方がより柔軟だからだと思うけど、再帰で書くとコードが長くなりがち。回数が決まっているときのループくらいはfor文でやりたい気がする。Rubyのfor文みたいな感じでマクロを書いた。 ;;for構文 (define-mac…

SchemeとCommon Lispってどう違うんですか?

SchemeとCommon Lispってどう違うんですか? 名前が違うよね。 いや、そういうことじゃなく… 一番違うのは名前空間だろうか。Common Lispは関数と変数で名前空間が違うから。あとは継続の有無か。 名前空間が違うってどういう意味です? 名前を保管している場…

ソフ開試験日

だったので早稲田まで行ってきた。家を出たのが試験開始35分前っていう段階で終わってるかんじだけど、山手線を逆方向に行ったりしつつも何とかたどりついたよ。高田馬場って早稲田のキャンパスがいっぱいあって迷う。早稲田大正門行きのバスに乗ったのがま…

BS漫画夜話の攻殻機動隊の回をみた。

管理社会の抑圧から解放された人間が自然に管理社会をつくりだしてしまう構造とかが指摘されていて、なるほどなーと感心してしまう。よく考えるよ。 思えば、アップルシードなんかでも理想的な管理社会であるオリュンポスみたいなものをつくる人間のことを …

突如発生する飲み会

家で使っていた極めて押下圧の軽いキーボードを研究室に置くことにした。 代わりに家では「大リーグボール養成キーボード」とも呼称されるUNICOMP製のバックスプリング式キーボードを使う。 これの重さは打った人にしかわからない。タイプライターを打ったこ…

Emacs/Cygwin

CS

SSHでBSDからXを引っ張ればいいじゃないか。 そう思っていた時期が 俺にもありました。しかし遅い、一挙手一投足が遅すぎる。 そのため、Cygwin上でemacsを走らせて、そこからange-ftpでファイルだけいじったらいいんでないの。と思いなおしました。 なぜMea…

ソフトウェア開発技術者

CS

の勉強をしてます。 しかし滅多に聞かないような用語が出てきてえーってなることが多いな。スループットとかはまだよく聞くんだけど、ターンアラウンドタイムとかはこの手の資格試験以外ではほとんど聞かないじゃないか。 きみ きみ。

なんか今日は∀ガンダム見返してた。これ面白いよ。最終回とか普通に感動する。登場人物がやたらと生活感だしてて、戦争ものなのに微笑ましいのがいい。メリーベルとか動きがかわいすぎでしょう。ちょんまげだし。まあなんにせよ菅野よう子よすぎってこった。…

宇宙とモナド

昨日NHK-BShiでやってた特集番組で、「宇宙ロマン 星に秘められた46億年の物語」っていうのがあったんだけど、結びのところで 「私は宇宙の中にいるけれど、私の宇宙は、私の心の中にある。なら、私と宇宙ではどちらが大きいの?」 という台詞があってちょっ…

追跡問題のシミュレータ

とりあえずできたので、次はすこし賢くしてみようと思います。卒研プレゼミナールという授業でつくったQ学習のプログラムがあるので、それを流用する。あとあと再利用できるように問題に依存しないインターフェースを設計しておくと何かとおいしい。前は状態…