清水伸幸

 

連絡先

東京大学 総合図書館内 情報基盤センター4F

113-0033 東京都文京区本郷7-3-1

Phone: 03-5841-2738

Fax: 03-5841-2745

 

研究領域

自然言語処理、情報検索、機械学習、データマイニング、人工知能

 

職歴

東京大学情報基盤センター

特任助教 (20071 - 20103), 特任講師 (20104 - 現在)

  日中中日自然言語処理・機械翻訳プロジェクト

距離学習やグラフィカルモデル、フレーズベースの統計的機械翻訳のシステムを利用して、半自動化した同義語抽出と対訳辞書のシステムをC++で実装しました。これらの結果は自然言語処理で古くからある国際会議Colingにおいて発表しております。構築した辞書は翻訳、言語横断検索システムの一部として利用・評価しています。 また、係り受け解釈や品詞付けなど、自然言語処理のタスクのため、機械翻訳テンプレートライブラリsoplibを整備し公開しました。

 

State University of New York at Albany (USA)

Research Assistant (2001 - 2004)

   HITIQAプロジェクト

複雑な質問に対する質問応答システムHITIQAの開発に従事しました。「マイケルジョーダンの背の高さは何センチか?」などの通常の事実関連の質問応答と違い、なぜ、いかに、など一言で答えられない質問への回答を探します。 基本的な構想としては、図書館において司書の方がユーザーの質問に答えるような質疑応答をしたのちに、ユーザーを回答となる文章へと導きます。 質問の内容に対する機械的な理解が限られているときでも、効果的にユーザーを答えに誘導することができます。 以下にHITIQAがめざす質疑応答の例を述べます。

学生: 「日本について知りたいのですが」

(クエリを用いて情報検索ののち、得られた文書をクラスターして大まかなデータのトピックを見つけ、トピックごとに応答します)

システム: 「日本と経済について興味をお持ちでしょうか?」

学生: 「はい」

システム: 「日本と歴史についてはいかがでしょうか?」

このように対話型に質問応答を行うことで、ユーザーを迅速に必要としている情報に導きます。

最終的にはユーザーが興味を示したトピックについて、ドキュメントを自動要約し、要約された文章を回答につけくわえて提示します。

Dr. Strzalkowski教授のもとで、このプロジェクトにおいてはクラスタリング、ウェブアプリケーション、情報抽出を担当しました。使用言語はJAVAです。こちらの結果につきましては、国際会議AAAIのスプリングシンポジウムなど、幾つかの場所で発表しております。

  Cross-Docプロジェクト

ユーザープロファイルや広範囲のクエリに基づく情報検索の結果をとして得られる複数の文書を、自動的に要約するシステムの開発に従事しました。 この結果は情報検索で最も権威ある国際会議SIGIRで発表しました。使用言語はJAVAです。

 

State University of New York at Albany (Albany NY, USA) 

Teaching Assistant (1999 - 2000)

Center for the Technology in Government (Albany NY, USA) 

Web Developer / Assistant System Administrator (1999)

ネットフォース株式会社 (名古屋市) 

Java Programmer (1998年夏)

Lakeshore Vision and Robotics (Holland MI, USA) 

Visual Basic Programmer (1997年夏)

Hope College (Holland MI, USA) 

Mathematics Lab Monitor / Mathematics Tutor, (1996 1997)

 

学歴

Ph D in Computer Science (2006)

トピック: 自然言語処理 アドバイザー:Dr. Andrew Haas

博士論文タイトル: Understanding Navigational Route Instructions. State University of New York at Albany (Albany NY, USA)  

  道順案内インストラクションの自動解釈

Dr. Haas教授のもと、博士課程の研究として、オフィスで迷っている人を案内する、という設定で学部生から英語による道順案内データを収集しました。例としては次のものが挙げられます。

"make first right then turn into second door on your left"

"Just head straight through the hallway ignoring the rooms to the left and right of you, but while going straight your going to eventually see a room facing you, which is north, enter it."

"Head straight. continue straight past the first three doors until you hit a corner. On that corner there are two doors, one straight ahead of you and one on the right. Turn right and enter the room to the right and stop within."

これらの道順案内を理解するため、一つ一つの道案内に対して最終目的地到達に動作のLabel付けを行い、問題をsegmentationlabelingとして定義しました。 Conditional Random Field (tagger/chunkerとして高い性能をもつ)を改良、応用した意味を解釈するための機械学習システムをC++で開発、改良して、上記のデータで教育し、Simulated Robotが単純化されたオフィス空間を言われた通りに動けるかどうかをテストする、という研究開発を行いました。背景となるオフィス空間についてのセマンティクスと、案内文を同時に解釈することができるため、 既存の手法と異なり特別な論理システムなどを必要としないこと、ラベルの粗な部分を分解し、一般のCRFなどよりも高性能であることが特長です。この結果については、人工知能で最も権威ある国際会議、IJCAIで発表いたしました。

 

State University of New York at Albany (Albany NY, USA) 

Master of Science in Computer Science (2001)

Hope College (Holland MI, USA) 

Bachelor of Arts in Computer Science (1998)

Hope College (Holland MI, USA) 

Bachelor of Science in Psychology and Mathematics (1997)


研究業績リスト

学術論文誌論文(査読あり) 

N. Shimizu, M. Sugiyama and H. Nakagawa.  Spectral Methods for Thesaurus Construction. 電子情報通信学会 情報・システムソサイエティ論文誌・英文論文誌 「情報爆発」特集号 (2010年6月号)

S. Matsushima, N. Shimizu, T. Ninomiya and H. Nakagawa.  多クラス識別問題におけるPassive-Aggressive アルゴリズムの効率的厳密解法.  電子情報通信学会 情報・システムソサイエティ論文誌・英文論文誌 「情報爆発」特集号 (2010年6月号)

T. Ninomiya, T. Matsuzaki, N. Shimizu and H. Nakagawa.  Deterministic shift-reduce parsing for unification-based grammars.  Journal of Natural Language Engineering.  Cambridge University Press. (Accepted 21 Oct 2010)

 

国際会議論文(査読あり)

N. Shimizu and H. Nakagawa. 2010. Features for Detecting Hedge Cues, In Proceedings of the Fourteenth Conference on Computational Natural Language Learning (CoNLL 2010), Shared Task Session, Uppsala, Sweden. (Accepted)

Shin Matsushima, Nobuyuki Shimizu, Kazuhiro Yoshida, Takashi Ninomiya, Hiroshi Nakagawa. 2010. Exact Passive-Aggressive Algorithm for Multiclass Classification Using Support Class, in Proceedings of SIAM Data Mining (SDM 2010), Columbus, Ohio. (Acceptance rate 23%, Nominated as one of 12 candidates for the best paper/the best student paper award)

Y. Ehara, N. Shimizu, T. Ninomiya and H. Nakagawa. 2010. Personalized Reading Support for Second-language Web documents by Collective Intelligence, in Proceedings of International conference on intelligent user interfaces (IUI 2010). Hong Kong, China. (Acceptance rate 22%)

T. Ninomiya, T. Matsuzaki, N. Shimizu and H. Nakagawa. 2009. Deterministic shift-reduce parsing for unification-based grammars by using default unification.  in Proceedings of European Association for Computational Linguistics (EACL 2009).  pp. 603-611. (Acceptance rate 28%)

N. Shimizu and A. Haas. 2009. Learning to follow navigational route instructions. in Proceedings of the Twenty-first International Joint Conference on Artificial Intelligence (IJCAI 2009), pp. 1488-1493. (Acceptance rate 25.7%)

N. Shimizu, M. Hagiwara, Y. Ogawa, K. Toyama and H. Nakagawa. 2008. Metric Learning for Synonym Acquisition, in Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008),Manchester, UK, pp. 793-800. (Acceptance rate 24%)

W. Hu, N. Shimizu, H. Nakagawa and H. Sheng. 2008. Modeling Chinese Documents with Topical Word-Character Models, in Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), Manchester, UK, pp. 345—352. (Acceptance rate 24%)

N. Shimizu and H. Nakagawa. 2007. Structural Correspondence Learning for Dependency Parsing, In Proceedings of the Joint International Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Shared Task Session, pp. 1166-1169.

N. Shimizu and A. Haas. 2006. Extracting Frame-based Knowledge Representation from Route Instructions.  Late Breaking Paper, HLT-NAACL Workshop on computationally hard problems and joint inference in speech and language processing, New York City.

N. Shimizu. 2006. Semantic Discourse Segmentation and Labeling for Route Instructions, in Proceedings of the Joint International Conference on Computational Linguistics and Association for Computational Linguistics (COLING-ACL 2006) Student Research Workshop, Sydney, Australia, pp. 31-36.  (Acceptance rate 38%)

N. Shimizu and A. Haas. 2006. Exact Decoding for Jointly Labeling and Chunking Sequences, in Proceedings of the Joint International Conference on Computational Linguistics and Association for Computational Linguistics (Coling-ACL 2006) Main Conference Poster Sessions, Sydney, Australia, pp. 763-770.  (Acceptance rate 23%)

N. Shimizu. 2006. Maximum Spanning Tree Algorithm for Non-projective Labeled Dependency Parsing, in Proceedings of the Tenth Conference on Computational Natural Language Learning (CoNLL 2006), Shared Task Session, New York City, pp. 236-240.

S. Small, T. Strzalkowski, T. Liu, S. Ryan, R. Salkin, N. Shimizu, P. Kantor, D. Kelly, R. Rittman and N. Wacholder. 2004. HITIQA: Towards Analytical Question Answering, in the Proceedings of The 20th International Conference on Computational Linguistics (Coling 2004), Geneva, Switzerland, pp. 1291-1297.

S. Small, N. Shimizu, T. Strzalkowski and T. Liu. 2003. HITIQA: A Data Driven Approach To Interactive Question Answering, A Preliminary Report, in Proceedings of AAAI New Directions in Question Answering Spring Symposium 2003, San Jose, California, pp 94-104

H. Hardy, N. Shimizu, T. Strzalkowski, T. Liu, B. Wise and X. Zhang. 2002. Cross-Document Summarization by Concept Classification, in Proceedings of ACM SIGIR '02 Conference, Tampere, Finland, pp. 121-128. (Acceptance rate 17%)

H. Hardy, N. Shimizu, T. Strzalkowski, T. Liu, B. Wise and X. Zhang. 2001. Cross-Document Summarization by Concept Classification, in Proceedings of ACM SIGIR '02 Workshop on Text Summarization, New Orleans, LA, pp. 65-69.

Hilda Hardy, Nobuyuki Shimizu, Tomek Strzalkowski, Ting Liu, Bowden Wise and Xinyang Zhang. 2002. Summarizing large document sets using concept-based clustering. In Proceedings of Human Language Technology '02 Conference, San Diego, California, pp 222-227. (Acceptance rate 20%)

 

著書

Sharon Small, Tomek Strzalkowski, Ting Liu, Nobuyuki Shimizu and Boris Yamrom. 2004. A data driven approach to interactive question answering. In Mark Maybury, editor, New Directions in Question Answering. MIT Press, pp 129-140.

 

解説・総説

清水伸幸, 宮尾祐介, 河原大輔. 2008. COLING2008における機械翻訳研究の傾向, in AAMTジャーナル

 

研究会(査読なし)

松島慎, 清水伸幸, 二宮崇, 中川裕志.  2008.  機械学習テンプレートライブラリを用いた英語品詞タガー. NLP若手の会 3回シンポジウム.

松島慎, 清水伸幸, 吉田和弘, 二宮崇, 中川裕志. 2009. サポートクラスによるPassive-Aggressiveアルゴリズムの多クラス化. 情報処理学会 192回自然言語処理研究会. 2009-NL-192(12). pp. 1--6

 

学位論文

N. Shimizu. 2006. Understanding Navigational Route Instructions.  Doctoral Dissertation, State University of New York at Albany.

 

主な学会活動

言語処理学会第16回年次大会(NLP2010)、大会実行委員

電子情報通信学会(IEICE)、査読者

国際会議North American Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL-HLT)、査読者

国際会議European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD)、査読者

国際会議Asian Conference on Machine Learning (ACML)、査読者

国際会議Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP)、査読者

国際会議International Conference on Computational Linguistics (COLING)、査読者


競争的資金の獲得状況

機械学習テンプレートライブラリの拡張と実証実験, 東京大学情報基盤センター特任プロジェクト, 2009.

Grants, Following Route Instructions in Natural Language, University at Albany Benevolent Award, 2004.

 

その他の研究成果

清水伸幸, 宮尾祐介. 2008. 機械学習テンプレートライブラリ, Freely Downloadable Software, http://soplib.sourceforge.jp

http://www.r.dl.itc.u-tokyo.ac.jp/study_ml/pukiwiki/index.php?manual