第4回:中国特許翻訳ツールの最新動向
機械翻訳は大きくルールベース翻訳(RBMT:Rule-Based Machine Translation)と統計翻訳(SMT:Statistical Machine Translation)に分類される。ルールベース翻訳とは、原文を構文解析して単語を分類し、各単語に対して、動詞、名詞、形容詞などの品詞を特定し、翻訳先言語の構文に基づいて語順を変更し翻訳結果を導く翻訳手法である。統計翻訳とは、コーパス(自然言語の文章を構造化し大規模に集積したもの)からアルゴリズムに基づいて確率が一番高い文章を引っぱりだして訳文を出力する翻訳手法である。また最近では、用例翻訳(EBMT:Example-Based Machine Translation)という、あらかじめ異なる言語で書かれた文のペアを用例として登録しておき入力文と類似した用例をもとに翻訳を行う翻訳手法も特許翻訳で用いられている。
ルールベース翻訳も統計翻訳も、中国特許翻訳に活用する場合は一長一短がある。ルールベース翻訳は、翻訳の抜け漏れがなく訳質が安定しているといった長所がある一方、新語が出てきた時に登録するというアクションが必要である。統計翻訳は、リアルタイムでの新語への対応ができるが、訳質が安定していない(別の日に翻訳すると違う結果が出るなど)、翻訳の抜け漏れがある、といったような短所がある。
特許ではない通常の文章の翻訳では、新語で訳文が出力される統計翻訳の方が精度良く見えることがあるが、特許の翻訳に至っては、訳文が時間とともに変化することを嫌がられることが多く、統計翻訳よりもルールベース翻訳を利用する企業が多い。一方、ルールベース翻訳では、韓国語⇔日本語はかなり高い精度で翻訳できるが、中国語⇔日本語では翻訳精度向上に限界も見えているため、各翻訳ツールベンダーは、ルールベース翻訳と統計翻訳とのハイブリッド翻訳の開発に取り組んでおり、ルールベース翻訳と統計翻訳の利点がうまく融合されれば、中国特許翻訳ツールも更に進化することだろう。
中国特許翻訳ツールには、パッケージソフト、ASP(Application Service Provider)サービスがある。パッケージソフトとASPサービスの特徴を以下の表に示す。
パッケージソフト | ASPサービス | |
---|---|---|
利用方法 | ユーザーがライセンス数分のソフトウェアを個別のPCにインストールして利用する | サービスプロバイダーから当てられたID、パスワードにアクセスして利用する |
利用環境 | オフラインでも利用可能 | インターネットにつながる環境で利用可能 |
機能 | 豊富な機能があり、カスタマイズ可能(辞書、中国語入力ツール、OCRなど) | 一部機能が限定的(辞書登録が名詞のみ、ファイル翻訳ができないものがある、など) |
資産 | 自社の資産として活用(蓄積したデータも資産となる) | 自社内に資産をもたない |
中国特許翻訳を社内で行っている企業の現時点の利用動向としては、機能が限定的であるASPサービスよりも豊富な機能をもつパーケージソフトを利用する企業が多く、翻訳量の多い企業はパッケージソフトを複数本購入して翻訳を行っている。他の形態としては、パッケージソフト、ASP以外の翻訳ツールとして翻訳エンジンを活用する場合があるが、これは、自社のシステムに中国特許翻訳機能を組み込みたい企業などが購入し、自社の翻訳サービスとしてクライアント企業に提供することが多い。
中国特許翻訳を検討する際には、翻訳手法の違いやツールの違いなどをよく理解した上で、自社に最適な中国特許翻訳ツールを採用することをお勧めする。
執筆者: 慶應義塾大学大学院経営管理研究科 特任教授 岩本 隆