• はてなブックマークに追加
  • Yahoo!ブックマークに登録
明日に向かってプログラめ!! vol.7/10 山下達雄@自然言語処理は、ウクレレを世界に広めるぞ!
自然言語処理研究の第一人者として、そして年季の入ったブロガーとして知られる山下達雄さん。ウクレレを弾く姿をブログで発見して取材を依頼したのですが、まさかここまでウクレレを愛していたとは……。軽くて覚えやすくてかわいくて、おまけに安いウクレレに……ハマりそう!
(取材・文/総研スタッフ 高橋マサシ 撮影/関本陽介)作成日:07.05.07
ササっと作ってすぐに使えるプログラム。 そんな僕の感性にはウクレレがピッタリ。
山下達雄さん
形態素解析の簡単な仕組み。
形態素解析の簡単な仕組み。
言語学や自然言語処理などの研究に使われる「コーパス」
から推定した、確率値の例
ヤフー「ブログ検索」での「ウクレレ」の検索結果。
ヤフー「ブログ検索」での「ウクレレ」の検索結果。
右側にキーワードの注目度や評判が表示
ウクレレはすぐに弾けます。皆さん、始めましょう!
山下さんのブログには「ウクレレと私」というページがあり、ハマり具合が伝わってきます。いつごろから始めたのですか?
大学院のときに懸賞が当たって、ハワイ旅行に行ったんです。ABCストアってあるじゃないですか。そこで8ドルくらいで買いました。僕は小さいころに少しだけエレクトーンを習ったくらいで、もともと楽器はできないんですが、すぐに弾けてしまった。4弦しかないのでコードが覚えやすいんです。
― ウクレレのよさをもう少し教えてください。
小さいのでどこにでも持っていける、音が小さいので普通の部屋で演奏できる、値段が安い、音が不安定なので少しくらい間違えてもバレない(笑)。いいことずくめでしょ。ただ、軽くて壊れやすいので、満員電車で移動するときは注意してください。
 友達の結婚式で弾いたことがありますし、先日も仲間と「ブログ合宿」に河口湖あたりに行って、何人かで練習したんです。こちらはブログに動画をアップしていますよ(←見ました。とっても真剣で、うまい)。
― ちょっと演奏していただけませんか?
 そうですね、では。(「なごり雪」を演奏。歌付き)
― ところで、ブログにある「オリジナルウクレレコード表」(下記例)って何ですか?
私が作ったコード表です。ウクレレを始めようとすると、普通は教則本などから入りますよね。それじゃ固いし、あんまり楽しそうじゃない。だったら、まずはコードだけわかればいいんじゃないかと、A4用紙1枚に収めました。プリントして使ってください(笑)。
「ウクレレ課題曲集」(下記例:かたつむり)もありますね。歌詞の前のタイミングで、例えば「でんでん」の前で「C」の音を鳴らすわけですね。
<C>でんでんむしむし かたつむ<G7>り
<C>おまえのあたまは <G7>どこにあ<C>る
<C>つのだせやりだせ あた<G7>まだ<C>せ
はい。この歌なんて2コードで引けるんですよ。有名なシンガーの歌でも作ったのですが、著作権があるのでブログで公開していません(笑)。ミスチルは難しいんですけど、尾崎豊は結構簡単ですよ(と、プリントした用紙を差し出す)。
あれ、さっきのオリジナルコード表とこれがあれば、誰でもウクレレが弾けるじゃないですか。
そうですよ。やっぱり、誰もが知ってる、演奏して達成感のある曲を、すぐに弾きたいじゃないですか。だから、ウクレレをやりましょうよ!
コントロール感のあるところがプログラミングの快感
― 山下さんはいつからプログラミングを始めたのですか?
中学生くらいからですね。友人と『ベーマガ』(マイコンBASICマガジン)に載っていたプログラムをBASICで組んだりしていました。中3でシャープの「X1」を買ってもらって、そのころはマシン語も覚えていたので表示系はマシン語で書いたりして。
 高校時代は、コンピュータ部(物理科学部コンピュータ班)でした。そのころは、雑誌『LOGIN』のプログラムコンテストに応募して、10万円もらったこともあります。この作品はパソコンソフトの自動販売機「TAKERU」で発売されたんですよ。
 大学では3年の研究室でUNIXに接して、大学院では1人1台のUNIXマシンがあって、大学院時代の1995年からブログを始めたんです。当時は「Web日記」と呼ばれていましたけど。ブログは今までずっと、だらだらと続けています(笑)。
― プログラミングの魅力は何だと思いますか?
作ってすぐに試せるのが面白いですね。うまくいったとか、すぐにわかるでしょ。悪ければすぐに直してまた試せますし。フィードバックの時間が短いと自分がコントロールしている感じがあって、そこが快感ですね。結果が出るのが明日の朝だったら、こちらが使われている感じがしてしまうと思います。
― 尊敬するプログラマはいますか?
特にいません。プログラムのためのプログラムをするのではなく、必要なものをササっと作ってすぐに使うのが僕のイメージなんです。仕事のスタイルもそうなんですけど、僕は0のものを90に底上げすることが好き。90を95、100へと上げるのは大変ですから、そこに労力をかけるよりも、未知の領域を見つけてどんどん90まで押し上げたいんです。
 プログラミングも最初から100%を目指すよりも、とりあえずやってみて、プロトタイプで動かす。敷居が低いのがいいですね。
音程が不安定で、チューニングもずれやすいので、100%な楽器ではない。だからこそ手軽で、誰もが気軽に始められる。先ほどのウクレレの話と今のプログラミングの話は似ていますね。つまり、両者は一体だと。
 ちょっと苦しいけど、うまい!
Webをしゃぶり尽くして、そのだしをパックにします
― 山下さんは大学院時代から自然言語処理がご専門ですよね。
僕は以前から形態素解析をメインに研究しています。文章を単語で区切って、品詞や読みを与えて、その内容を解析していきます。仮に「さかなだよ」という文章があった場合(上の図版)、コンピュータは「魚だよ」ではなく、「さ・かな・だ・よ」や「さか・なだ・よ」など、日本語的にはあり得ない読み方もします。そこで辞書を使ったりデータベースを作ったりして、単語のスコアリングや頻度の確率を出すなどして、適切な意味を持たせていきます。超簡単に概略を説明するとこんな感じです(笑)。
 前社では研究所で機械翻訳のパッケージソフト開発をしていたのですが、こちらはある程度完成してしまえば、後はバージョンアップを繰り返すくらい。そのころはWebに興味が出てきましたし、先にも話しましたが0を90にすることが性に合っているので、ヤフーに転職しました。
― Webでの自然言語処理には、どのような特徴があるのでしょう。
自然言語処理に携わるエンジニアにとって、いちばん重要なのは言語のデータなんです。コーパスという言語サンプルの巨大なテキストデータはあるのですが、Webにはそれ以上の、膨大すぎるほどのサンプルがある。そして、その膨大なデータを解析することで多くの人、もっと言えば社会に貢献できます。
 例えば、「評判情報抽出技術」と呼んでいますが、多くのブログの記事内容を解析することで、ある製品がポジティブ(ネガティブ)に評価されているかどうかがわかります。企業にとってはマーケティングに活用できますし、ユーザーは購入の参考に使えます。
ブログの文章には個人差が出ると思います。悪く言えば、一般的でない表現やいい加減な言葉遣いがある。すると、解析の幅がかなり広がってしまうと思いますが……。
2つの考え方があると思います。ひとつは「キター」や「キモい」などの言葉も新しく辞書に登録する。もうひとつは、Webのデータ総量のスケールがあまりに多いので、選べるものだけから選ぶ。この2つを同時に進めているというか、そうせざるを得ない環境ですね。
 例えば、「ウザい」がマイナーな言葉だったとしても、使われるようになればメジャーに昇格します。すると辞書に登録されます。僕から見ると、貧乏だった人がいきなり大金持ちになるようなイメージなんです。
人気シンガーの「ウクレレ課題曲集」
人気シンガーの「ウクレレ課題曲集」
― いつも聞いているのですが、山下さんの夢は何ですか?
テキストマイニングで、Web上のテキストをしゃぶり尽くしたい(笑)。そしてそのだしを取って、パックにして世の中に役立てたい。これらの両立が課題ですし、実現できたときにいちばんのやりがいを感じます。これが自然言語処理の醍醐味なんですよ。
山下達雄さん(35歳) 山下達雄さん(35歳)
1972年生まれ。奈良先端科学技術大学院大学にて自然言語処理を専攻。日本語形態素解析のフリーソフト「茶筌」の開発に初期段階から携わる。修了後に大手ITベンダーに入社し、研究所にて機械翻訳ソフトの開発と改良に従事。特に検索エンジン部分を担当。
その後、Webにおける自然言語処理に興味をもち、「ネット系の会社で思い切り腕を振るいたい」と2005年9月にヤフー株式会社に転職。2007年4月の「Yahoo!JAPAN研究所」設立に伴い、同所の研究員となる。1995年に始めた個人ブログ「たつをのChangeLog」は、日本有数の歴史ある(?)ご長寿ブログである。
  • はてなブックマークに追加
  • Yahoo!ブックマークに登録
あなたを求める企業がある!
まずはリクナビNEXTの「スカウト」でチャンスを掴もう!
スカウトに登録する
高橋マサシ(総研スタッフ)からのメッセージ 高橋マサシ(総研スタッフ)からのメッセージ
ご本人がブログやサイトを持っているケースが多いので、取材依頼はほとんどメールです。山下さんの場合も同じでした。取材を快諾していただいた後、「タイトルは、『山下達雄@ご長寿ブロガーは、とりあえずウクレる』とかですかねえ(笑)」とのご提案。その時点でもう、お会いするのが楽しみになってしまいました。タイトルを変えてすみません!

このレポートの連載バックナンバー

明日に向かってプログラめ!!

編集部が注目したプログラマの趣味やハマりごとにフォーカス。彼らの人間性とその魅力を通して、プログラマライフをクローズアップします。

明日に向かってプログラめ!!

このレポートを読んだあなたにオススメします

ギークたちが愛したミニブログ、炎上した「恋愛支援アプリ」

Wassr、カレログ、“サービス終了”の理由とは?

それは突然やってくる。Webサービスやアプリの「サービス終了」だ。知りたくなるのがその理由だが、オープンにされない場合…

Wassr、カレログ、“サービス終了”の理由とは?

No tech No life 〜この技術とともに在り〜

世界をつないだ「商用インターネット」技術16年史

No tech No life この技術とともに在り最新の「通信利用動向調査」(総務省)によれば、日本のインターネット利用者数は2007年末で推計8811万人。この広範な普及を可能…

世界をつないだ「商用インターネット」技術16年史

“ヒーローエンジニア”を探せ!

ブログの話題を発見!「Kizasi Search Engine」開発者

“ヒーローエンジニア”を探せ!独創的発想で活躍している若手エンジニアを探し出して紹介するこのシリーズ!今回登場するのは、ブログに記された無数のコトバを時系列で…

ブログの話題を発見!「Kizasi Search Engine」開発者

“日本発、世界のアメーバブログ”を目指し社内開発体制を増強

サイバーエージェント藤田社長/技術屋採用宣言の真意

人気企業の採用実態広告代理事業で急成長を遂げてきたサイバーエージェントが、今、「技術も強い会社」に生まれ変わろうとしている。人気ブログ「Ameba…

サイバーエージェント藤田社長/技術屋採用宣言の真意

〈色、フォント、レイアウト、買っちゃう?…「ラク」に行こう!〉

ゆーすけべーが伝授!人気Webデザインの作り方

Webデザインを苦手とするプログラマも多いけれど、「覚えたい」という人も多いはず。そんなエンジニアは必見です。Perl…

ゆーすけべーが伝授!人気Webデザインの作り方

やる気、長所、労働条件…人事にウケる逆質問例を教えます!

質問を求められたときこそアピールタイム!面接逆質問集

面接時に必ずといっていいほど出てくる「最後に質問があればどうぞ」というひと言。これは疑問に思っていることを聞けるだけで…

質問を求められたときこそアピールタイム!面接逆質問集

この記事どうだった?

あなたのメッセージがTech総研に載るかも

あなたの評価は?をクリック!(必須)

あなたのご意見お待ちしております

こちらもお答えください!(必須)

歳(半角数字)
(全角6文字まで)
  • RSS配信
  • twitter Tech総研公式アカウント
  • スカウト登録でオファーを待とう!
スマートグリッド、EV/HV、半導体、太陽電池、環境・エネルギー…電気・電子技術者向け特設サイト

PAGE TOP