概要
インターネットを介してコミュニケーションをとる人々の数が増加し,Web上で用いられている言語数は急速に増加しています.一方で,インターネット上には多数の言語資源(データ及びソフトウェア)が存在しているにもかかわらず,専門家でなければ異文化コラボレーション活動の現場で利用することは難しいです.複雑な契約や知的財産,データ構造やインタフェースの多様性が,言語資源の一般的な利用の妨げとなっています.
そこで我々は,集合知のアプローチにより,世界中の言語資源(辞書,機械翻訳など)を共有することができる,インターネット上の多言語サービス基盤「言語グリッド(The Language Grid)」を開発しました.言語グリッドを使うことで,インターネット上の言語資源(対訳辞書など)や言語処理機能(機械翻訳など)を自由に組み合わせて使ったり,コミュニティが作った言語資源を追加し,コミュニティの活動に特化した言語サービスを作ったりすることができます.
本研究プロジェクトでは,言語グリッドの世界展開と言語グリッドを用いたシステム,対訳辞書など言語サービスの自動生成手法に関する研究開発を進めます.特に,対訳辞書を中心とする言語サービスの作成に関する研究成果は人工知能のトップカンファレンスであるIJCAIやACM Transactions on Asian and Low-Resource Language Information Processingに多数採択されています.
研究内容
言語グリッドの世界展開
本研究室では,言語グリッドの様々な言語サービスを既存のインターネットブラウザから体験できる「言語グリッドプレイグラウンド(Language Grid Playground)」,およびカスタマイズ可能な多言語支援ツール集である「言語グリッドツールボックス(Language Grid Toolbox)」を公開運営しています.これらのツールのソースコードはSourceForgeとGitHubで公開されており,OSSライセンスの下で自由に利用できます.
我々は言語グリッドを欧米やアジアの大学・研究機関と協力しながら世界に展開しています.アジアワイドな言語グリッドの構築に向けて,タイのNECTECにおけるバンコク運営センターに続き,2012年にインドネシア大学のジャカルタ運営センターを,2014年にウルムチの新疆大学にウルムチ運営センターを開設し言語サービスの集積を進めています.さらに,各運営センターを相互に接続することで,言語サービスの相互利用を実現し,現在225言語サービスが全体で利用可能となりました.また,言語グリッドのサーバソフトウェアを用いて,欧州言語資源協会(ELDA/ELRA)や米国NSFプロジェクトとの連携を実現します.
制約最適化に基づく言語サービスの自動生成
言語グリッドは,「言語資源から言語サービスへ」の潮流を先導し,言語資源の共有と利用を促進してきましたが,登録される言語資源の言語に偏りがあり,特に低資源言語の言語サービスの提供に課題があります.
低資源言語の対訳辞書生成を例にしてみましょう.従来の対訳辞書生成の研究は,英語や中国語などの主要言語をピボット(中間言語)として既存の対訳辞書を連結し,帰納的に訳語をマッピングする技術が主でした.しかし,低資源言語の対訳辞書生成では,低資源言語を含む大規模な対訳辞書自体がほとんど存在しないため帰納的な対訳辞書生成ではなく,少数のデータから規則を抽出し,その規則を繰り返し適用して演繹的に訳語を増殖させる必要があります.そこで,本研究では,制約最適化技術を用いて対訳辞書生成のアルゴリズムを考案し,低資源言語であるインドネシア諸語などアジア言語の対訳辞書の自動生成を行います.
言語グリッドを用いた多言語会議支援システム
講演やディスカッションなど,発話内容の翻訳は,一般的に人間の通訳者が行っています.しかし多言語を同時にサポートする必要がある場合は,非常にコストがかかります.
本研究では,言語グリッドを用いて,人間によるリアルタイム入力と機械翻訳システムを組み合わせた,容易に多言語に展開できる支援システムの研究・開発を行います.また,開発されたシステムを,実際に国際シンポジウムの多言語支援や研究室セミナーの留学生支援のツールとして実用化を進めています.
主な研究成果
- [Book]
- Toru Ishida Ed. The Language Grid: Service-Oriented Collective Intelligence for Language Resource Interoperability. Springer, ISBN 978-3-642-21177-5. 2011.
- Yohei Murakami and Donghui Lin (Eds.) Worldwide Language Service Infrastructure. Springer, ISBN 978-3-319-31467-9. 2016.
- [Chapter in Book]
- Yohei Murakami, Donghui Lin, and Toru Ishida. Service-Oriented Architecture for Interoperability of Multi-Language Services. Paul Buitelaar and Philipp Cimiano (Eds.), Towards the Multilingual Semantic Web. Springer, pp. 313-328, 2014.
- [Journal]
- Mairidan Wushouer, Donghui Lin, Toru Ishida, and Katsutoshi Hirayama. A Constraint Approach to Pivot-based Bilingual Dictionary Induction. ACM Transactions on Asian and Low-Resource Language Information Processing, Vol. 15, No. 1, Article 4, November
2015.
- [Conference]
- Toru Ishida, Yohei Murakami, Donghui Lin, Takao Nakaguchi, Masayuki Otani. Open Language Grid – Towards a Global Language Service Infrastructure. The Third ASE International Conference on Social Informatics (SocialInformatics 2014), Cambridge,
USA, 2014. (Invited talk) - Toru Ishida, Yohei Murakami, Donghui Lin, Masahiro Tanaka, and Rieko Inaba. Language Grid Revisited: An Infrastructure for Intercultural Collaboration. 10th International Conference on Practical Applications of Agents and Multi-Agent Systems (PAAMS
2012), 2012. (Invited talk) - Jun Matsuno and Toru Ishida. Constraint Optimization Approach to Context Based Word Selection. International Joint Conference on Artificial Intelligence (IJCAI-11), pp. 1846-1851, Barcelona, Spain, 2011.
- Rie Tanaka, Yohei Murakami and Toru Ishida. Context-Based Approach for Pivot Translation Services. International Joint Conference on Artificial Intelligence (IJCAI-09), pp. 1555-1561, 2009.
- Toru Ishida. Language Grid: An Infrastructure for Intercultural Collaboration. IEEE/IPSJ Symposium on Applications and the Internet (SAINT 2006), pp.96-100, 2006. (Keynote address)