AAMT「MTユーザーガイド」に対する悲しみと怒り

共有

本事件の総括をこちらのページに掲載しています(2022-09-27)


目次


MTユーザーガイドの公開

2022年9月1日にアジア太平洋機械翻訳協会(AAMT)から『MTユーザーガイド ― 機械翻訳で失敗しないための手引き ―』(Ver. 1.0)が発行された。

この取り組み自体は評価できる。MTユーザーは増え続けているが、どういった点に注意して利用すべきか分からないまま使っている人も多いからだ。(偶然にも本ブログでも、とりわけITエンジニアがMT利用時に注意すべき部分について調査してまとめている。)

しかしMTユーザーガイドを読み進めていくと、悲しみと怒りを禁じ得なかった。順に説明しよう。

悲しみ

MTユーザーガイドの第2章では「翻訳品質」が扱われている。2.1節では翻訳品質の主要素として4つを紹介し、2.2節からはその4つが順に解説されている。「2.2 正確性」、「2.3 流暢性」、「2.4 用語・専門用語」、「2.5 スタイル」だ。

続く2.6節タイトルは「JTF翻訳品質評価ガイドライン」で、同ガイドラインの内容を盛り込んでいただいている。「いただいている」と言ったのは、私が制作に関わったからだ。また現在もJTF翻訳品質委員会の委員として管理している。このJTF翻訳品質評価ガイドラインはこちらのページ(または直接PDFファイル)から閲覧できる。


さて、MTユーザーガイド2.6節の冒頭にはこうある。

上述した品質評価の指標は、世界的な共通の品質評価枠組みとして整備されています。日本においては、日本翻訳連盟(JTF)が、その基準に準じた翻訳品質評価ガイドラインを提示しています。

これは誤りである。

JTF翻訳品質評価ガイドラインには確かに「正確さ」、「流暢さ」、「スタイル」、「用語」というエラー項目がある。しかしその4つは「枠組み」ではないし、品質の主要素としてもいない。JTF翻訳品質評価ガイドライン枠組み全体の下位にある「JTF翻訳品質評価モデル」のさらにその中にあるエラー項目に過ぎない。つまりその4つを主要素と言ってしまうと、翻訳品質をあまりに矮小化しすぎているのだ。

この部分を理解していただくために、業界における翻訳品質の歴史について簡単に説明したい。

翻訳業界における品質評価小史

1. エラー評価の時代

翻訳業界では遅くとも90年代から「正確さ」、「用語」、「スタイル」などの項目を使って品質評価が行われてきた。こういった項目のエラー数で品質を測るため、エラーベースの評価と呼ばれる。有名な手法は「LISA QA Model」で、ローカリゼーション業界団体であるLISAが1995年にバージョン1を開発した。このLISA QA Modelに基づいてさまざまな翻訳会社が自社の評価システムを作ったとされ、似たものを見たことがある人はいるだろう。なお同様のエラー評価方法として、自動車業界のSAE J2450もある。

2. エラー評価に対する批判

しかしこのエラー評価に対する批判が2010年代初頭から起こってくる。

まず「文章レベルに対する意識が薄い」という批判だ。エラー評価では1文ずつ見て評価するため、文章全体に対する視点が欠落する。いわば「木を見て森を見ず」に対する批判だ。例えば学術論文には一般的に受け入れられている文章形式があるが、それに沿っていないケースだ。

次に「さまざまなドキュメントに対応できない」という批判があった。例えば特許文書とマーケティング資料では翻訳で重視されるポイントが違う(前者は「正確さ」や「用語」かもしれないし、後者は「流暢さ」かもしれない)。しかしどのようなドキュメントに対しても同じエラー項目や重大度を使うと、適切な評価はできない。つまりは「one-size-fits-all」(画一的)に対する批判だ。

3. MQMの登場

上記のエラー評価に対する批判に応える形で2015年に登場したのが「MQM」(Multidimensional Quality Metrics)だ。「木を見て森を見ず」に対する批判には、1文ずつの分析評価(Analytic)に加え、文章全体を対象とする全体評価(Holistic)を提唱した。また「one-size-fits-all」の批判に対しては、ドキュメントタイプに応じて柔軟にエラー項目や重大度を設定できる仕組みを備えている。

さらにこのMQMで特徴的なのは「仕様」の考え方を基本にしている点だ。仕様とは、受発注者など関係者間の事前取り決めだ。そして翻訳品質も「仕様をどの程度満たしているか」で評価する。従来、業界内ではエラー評価一辺倒であったが、数ある手法の1つに過ぎないと相対化されることになった。仕様でエラー評価すると取り決めれば、それを使えばよい。しかし必ずしも使う必要はなく、ドキュメントや状況に応じて柔軟に決定できるのだ。

なお翻訳における仕様の考え方は90年代(Melbyら)からあり、ASTM F-2575やISO 11669のような国際規格にも取り込まれている。

4. JTF翻訳品質評価ガイドライン

上記のような海外の状況を受けて2018年に完成したのが「JTF翻訳品質評価ガイドライン」である。

MQMと同じく「仕様」の考え方を基本とし、品質は「翻訳成果物が、関係者間で事前に合意した仕様を満たす程度」と定義している。つまり必ずしもエラー数で品質が決まるわけではないのだ。例えば専門家が主観評価するという仕様にしてもよいし、ユーザビリティー評価で測るという仕様にしてもよい。上で「これは誤りである」と言ったのはこれが理由である。JTF翻訳品質評価ガイドラインが枠組みとして提示したのは、決してエラー評価項目ではない。

ただし、JTF翻訳品質評価ガイドラインは業界でエラー評価が広く用いられている現状に鑑み、「JTF翻訳品質評価モデル」を提示している。同モデルでは「正確さ」、「流暢さ」、「用語」、「スタイル」、「地域慣習」、「デザイン」、「事実性」という7つのエラー項目が用意されているが、全部使う必要はない。状況やドキュメントによって使ってよいし、使わなくてもよい。MQMのような柔軟な評価システムを目指しているからだ。MTユーザーガイドのように「主な4要素」として固定化していない。

再び狭い穴底に転落か

このように、JTF翻訳品質評価ガイドラインは2010年代から海外で進んだ翻訳品質評価研究の結果を取り込んで作られた。研究の結果とは、エラー評価に対する批判と、その改善策である。

私が冒頭に「悲しみ」と書いたのは、要するにこのような発展の結果がまるでMTユーザーガイドに反映されていなかったからだ。90年代からあった「翻訳品質=エラー数」という狭隘な品質観からせっかく脱却し、ドキュメントや状況に応じて柔軟に評価手法を変えられる広い世界が見えるようになったのに、またもや狭い穴底に転落してしまうように感じるのだ。


MTユーザーガイドの第2章を執筆したのは翻訳者の2人のようなので、上記のような翻訳学に属するような研究結果を知らないのは仕方ないのかもしれない。しかもそれを期待するのは、私が身勝手なのかもしれないし、そもそもJTF翻訳品質評価ガイドラインを正しく認知してもらう活動が私自身の側に不足していたのかもしれない。

しかし、MTユーザーガイド委員会の委員長で立教大学教授の山田優氏は研究結果を知っていたはずだ。実は私は2019年から2021年にかけて氏の研究プロジェクトに参加しており、仕様をベースにした品質評価について何度となく議論をしたからだ。その山田氏が第2章の内容でOKを出したことについて愕然とし、いまは悲嘆に暮れているところだ。

怒り

続いて怒りだ。

MTユーザーガイドの第2章を読んでいたら、どこかで見た表現がいくつも見つかった。確か、JTF翻訳品質評価ガイドラインで私が書いた表現である。気づいたものだけをいくつか拾ってみる。左半分がMTユーザーガイド、右半分がJTF翻訳品質評価ガイドラインである。また数字はPDFのページ番号で、全く同じ文言をハイライトしている。

全く同じ表現部分

p.MTユーザーガイドの文言p.JTFガイドラインの文言
11正確性とは、原文の情報や意味が訳文に過不足なく盛り込まれているかどうかを示す指標です。14原文の情報や意味が訳文に過不足なく盛り込まれているかの程度。
12
主観的な読みやすさというより、文法など形式面に注目します(well-formedness)
14主観的な読みやすさというより、文法など形式面に注目する(well-formedness)
12コロケーション誤り:例、「約束を保つ」と訳してしまう。15コロケーション(語どうしの慣用的なつながり)に誤りがある。例:「約束を保つ」
12待遇表現誤り:例、謙譲語を用いるのが適なのに使っていない。15敬語などの待遇表現が文脈上適切ではない。例:謙譲語を用いるのが適なのに使っていない。
12曖昧性の問題:例、「若い先生の犬」15係り受けなどが原因で、さまざまに解釈可能されうる部分がある。例:「若い先生の犬」
13用語不統一:例、「犬」と「イヌ」の両方がある。16例:「戻り値」と「返り値」の両方、「犬」と「イヌ」の両方がある。
14実務翻訳では、複数の翻訳者が関与したり既存訳と整合を図ったりすることが多いため、スタイルの統一重要です。16産業翻訳では、複数人が関与したり既存訳と整合を図ったりすることが多いため、スタイルの統一重要となる。
14指定スタイル違反:例、スタイルガイドで常体(である調)と指定があるのに敬体(ですます調)を使っている。17例:スタイルガイドで常体(である調)と指定が
あるのに敬体(ですます調)を使っている。
14特定分野スタイル違反:例、指定スタイルではないものの、ある専門分野で一般的なスタイルが用いられていない。例学術論文で敬体(ですます調)が使われている。17指定スタイルではないものの、ある専門分野で一般的なスタイルが用いられていない。例学術論文で敬体(ですます調)が使われている。
14スタイル不統一:例、指定スタイルではないものの、スタイルが統一されていない。例箇条書きに常体と敬体の項目が混在、「受入テスト」と「受け入れテスト」が混在している。17指定スタイルではないものの、スタイルが統一されていない。例箇条書きに常体と敬体の項目が混在、「受入テスト」と「受け入れテスト」が混在している。

用語の定義や例が似ることはあるだろう。しかしMTユーザーガイドの一部は明らかにJTF翻訳品質評価ガイドラインの丸写しである。とりわけ14ページには多い。大方、筆者が例を考えるのが嫌になったのだろうが、この手抜きには驚いた。自分で具体例も考案できないのに、他人に何を教えられるのか。

14ページのハイライト部分についてのみ画像で引用する。

AAMT『MTユーザーガイド』p.14。JTF翻訳品質評価ガイドラインと同じ部分をハイライト表示

ライセンスに違反か

なお、JTF翻訳品質評価ガイドラインは「CC BY 4.0」ライセンスで提供されている。以下の条件を守る限り著作物を自由に利用できるというライセンスで、丸写しでも可である。

表示 — あなたは適切なクレジットを表示し、ライセンスへのリンクを提供し、変更があったらその旨を示さなければなりません。これらは合理的であればどのような方法で行っても構いませんが、許諾者があなたやあなたの利用行為を支持していると示唆するような方法は除きます。

しかしこの条件は守られていない。

第1に「適切なクレジットを表示」していない。2.7節「おすすめ文献」はあくまでおすすめ文献であり、クレジットではない。第2にCC BY 4.0の「ライセンスへのリンク」がない。第3に「変更があったらその旨を示さなければ」ならないが、示されていない。要するに条件はまったく守られておらず、CC BY 4.0ライセンスに則った利用でもないのだ。


先ほど「悲しみ」を書いたが、翻訳品質をどう考えるかはAAMTの判断であるし、私が意見する立場にもない。だがこの丸写しは違う。著作権侵害やライセンス違反に該当し、全くもって「怒り」を禁じ得ないのである。

委員長の山田氏は、学生が丸写しのレポートを出してきても合格点を与えているのだろうか? MTユーザーガイドの第2章には、他者の著作物を尊重する姿勢が欠如しているのではないか?


共有