機械翻訳:包括的なガイド
機械翻訳は、人工知能を使用してテキストや音声をある言語から別の言語に自動的に翻訳することです。 機械翻訳ソフトウェアは、自然言語処理と深層学習技術を使用して、元の言語の言語要素を分析し、単語が互いにどのように影響し合っているかを認識して、その完全な意味を新しい言語で伝えます。
機械翻訳は AI を使用して、テキストと音声をある言語から別の言語に自動的に翻訳します。 自然言語処理と深層学習に依存して、人間の翻訳者を必要とせずに特定のテキストの意味を理解し、それをさまざまな言語に翻訳します。
一般的な機械翻訳ツールには Google 翻訳や Microsoft Translator があり、どちらも話し言葉と書き言葉の両方を翻訳できます。 これらは、文法、言語理解、言語生成など、自然言語処理に関する既存の知識をすべて基にして構築され、数百の異なる言語への翻訳を迅速に作成します。
機械翻訳は完璧とは程遠く、これらのシステムは、銀河ヒッチハイク ガイドやスタートレックのような SF 物語に描かれている装置ほど迅速かつ流暢に翻訳を生成しません。 それでも、このテクノロジーは数十年にわたって大きな進歩を遂げており、今後は言語翻訳に大きな破壊的影響を与えると予想されています。
思考の糧「スタートレック」の万能翻訳者が現実に登場する日は来るだろうか?
英国のサイモン・フレイザー大学の言語学教授、マイテ・タボアダ氏によると、機械翻訳の起源は1950年代に遡り、冷戦時代に米国がロシアや他の国々をスパイするために機械翻訳を使用したとき、それは「人工知能アプリケーションの元祖」となったという。カナダ、コロンビア。
当時使用されていた方法では、ある言語を別の言語に翻訳するために、大規模な二か国語辞書と文法規則を手作業でコンピュータにプログラムする必要がありました。 2000 年代初頭、コンピューターは機械学習を使用してテキストを分析し、統計的予測を行い、ソース言語の特定の単語またはフレーズがターゲット言語の対応する単語またはフレーズである可能性を判断し始めました。
現在、私たちはニューラル機械翻訳に依存しています。これは、深層学習を使用して新しい言語を学習し、ニューラル ネットワークと呼ばれる特定の機械学習方法を使用してその知識を継続的に改善します。この方法では、入力データが相互接続された複数のノードを通過して出力を生成します。人間の脳の仕組み。
ニューラル機械翻訳ソフトウェアは大規模なデータセットを処理し、他の方法のように入力文を個々の単語やフレーズに分割するのではなく、翻訳の各ステップで入力文全体を考慮します。 文の意図や意味を捉える、さらには理解する能力が向上し、その結果、古い統計モデルの多くがすぐに置き換えられました。
ニューラル機械翻訳における最近のブレークスルーは、トランスフォーマー ニューラル ネットワーク (OpenAI の ChatGPT や Google の Bard などの大規模言語モデル、つまり LLM を強化する GPT の「T」) の作成です。 トランスフォーマーは言語のパターンを学習し、入力テキストのコンテキストを理解して、適切な出力を生成します。 そのため、テキストをさまざまな言語に翻訳することが特に得意になります。
「セルフアテンション」と呼ばれる技術を使用して、トランスフォーマーは入力文のさまざまな部分に選択的に焦点を当て、それらの重要性を相互の関連度に基づいて比較検討し、それらの間の重要な関係を特定して、正確に別の文に翻訳できるようにします。言語。 また、大量のバイリンガル テキスト データについてもトレーニングされているため、さまざまな言語のニュアンスを学習し、正確な翻訳を生成する能力が向上します。
「他の大規模な言語モデルと同じように、トランスフォーマー モデルを使用すると、[次の単語] も予測できます。ただし、それはコンテキストに基づいて予測されます」と、翻訳会社 Smartling の AI および機械翻訳担当副社長のオルガ ベレゴバヤ氏は Built In に語った。 「大規模な言語モデルはさまざまなタスク用にトレーニングされていますが、最新世代の LLM は翻訳タスクでも同様に優れたパフォーマンスを発揮します。」
最も洗練されたレベルでは、機械翻訳は本質的に生成 AI の一種であり、LLM を使用してテキストを自動的に生成します。 たとえば、ユーザーが英語で ChatGPT にチョコレート エクレアのレシピをフランス語で提供するように要求した場合、出力は機械翻訳の例になります。
これまで、トランスフォーマー モデルを使用しないニューラル機械翻訳は事実に正確でしたが、自然言語の流動性に欠けていました。 また、AI が生成したテキストは非常に会話的なものになっていますが、内容については大きく間違っている可能性があります。
次回の機械翻訳では、LLM とニューラル機械翻訳の長所を組み合わせて、より自然で正確な言語翻訳が生成される可能性があります。 実際、ベレゴバヤ氏は、OpenAI の最も先進的な言語モデルである GPT-4 ではすでにそれが起こっていると述べています。
「GPT-4 はすでに機械翻訳のコピーを作成しています。特定の翻訳方向に関しては、ニューラル機械翻訳よりも品質が優れていることがよくあります」と彼女は言いました。 「実際に技術の融合はあるのでしょうか? それはこれからのことです。しかし、間違いなく、彼らはお互いから学び、収穫するでしょう。」
将来に向けてAI の未来: 人工知能は世界をどう変えるか
最新の機械翻訳ツールには、特にビジネス アプリケーションにおいて多くの利点があります。
翻訳会社ペアフレーズ社の CTO 兼 CMO である Rick Woyde 氏によると、機械翻訳は本質的には「生産性を向上させるもの」です。 人間の翻訳者チームだけでは達成できない規模と速度と能力で、一貫した高品質の翻訳を提供できます。
機械学習アルゴリズムの継続的な改善により、そしてコンピューティング技術、機械翻訳は今後さらに高速かつ効率的になる可能性があります。
機械翻訳システムは、教師なし学習のおかげで学習を続けることもできます。教師なし学習は、結果を予測するためにラベルなしのデータ入力と出力を処理する機械学習の一種です。 教師なし学習を使用すると、システムはラベルのないデータ間のパターンと関係を独自に識別できるため、より自律的に学習できるようになります。
これは機械翻訳に最適です。 より多くのコンテンツが作成され、それに取り込まれるにつれて、翻訳の品質が向上する可能性があります。 エンジンは、時間をかけて新しい単語、フレーズ、さらには言語を学習することができます。
機械翻訳は、言語翻訳の初期の重労働の多くを実行し、人間の関与の必要性を最小限に抑え、コストと納品までの時間の両方を削減できます。 たとえば、企業は機械翻訳エンジンを自社のコンテンツ管理システムに統合し、その情報をさまざまな言語に自動的に翻訳することができます。手作業でチームに費用を支払う必要はありません。
「今日では、より少ない人数で、より多くのことができるようになりました」とウォイド氏は語った。 「コストを比較すると、今日のテクノロジーはばかばかしいほど有利です。」
「コストを比較すると、今日のテクノロジーはばかばかしいほど有利です。」
機械翻訳によって人間の翻訳者が完全になくなるわけではありません。 むしろ、彼らの仕事は変わるだけです。 機械翻訳モデルがトレーニングされると、人間の翻訳者は特定の用語の用語集とそれらの用語の正しい翻訳を作成できます。 ある意味、彼らは、マシンが従わなければならないルールを決定するソフトウェアエンジニアになります。 翻訳が完了したら、必要に応じて編集や変更を加えることができます。
この種の作業は、特定の業界や企業に合わせてより細かく調整された機械翻訳モデルを作成する場合に特に重要です。 たとえば、自動車業界における「クラッチ」という言葉の意味は、ファッション業界におけるそれとは大きく異なり、機械翻訳システムにはそれを教えるために人間が必要になる場合があります。
「用語集があれば、その場で間違いの 50% を減らすことができます」とウォイド氏は言います。 「それが私たちが目指しているところです。より少量のデータを使用して、機械から得られる翻訳を改善できるところです。そしてそれを大規模に行うことができます。」
機械翻訳は、アクセシビリティを向上させるための安価で効果的な方法です。 多くの主要な機械翻訳プロバイダーは数百の言語を提供しており、一度に複数言語の翻訳を同時に提供できるため、多言語を話す視聴者に迅速にリーチするのに役立ちます。
それは単に言語の壁を打ち破ることだけではありません。 視覚障害のある人は、機械翻訳対応のテキスト読み上げ技術を使用して、テキストの翻訳と読み上げを同時に行うことができ、より便利な方法で情報にアクセスできるようになります。
機械翻訳は言語の壁を取り除き、ユーザー エクスペリエンスを向上させることで、世界中の視聴者にとってコンテンツ、製品、サービスへのアクセシビリティを高めることができます。
機械翻訳は大きな進歩を遂げ、企業に恩恵をもたらし続けていますが、完璧ではありません。 機械翻訳システムのトレーニングに関してはまだいくつかの課題があり、このテクノロジーが理想的なソリューションではないケースも多くあります。
他の AI モデルと同様、機械翻訳システムはトレーニング データセットに何が含まれているかのみを認識します。 また、ディープラーニングは教師なし手法を使用するため、データに偏りがあるかどうかに関係なく、世界からデータを取り込むことですべてを学習します。 その結果、現実の世界に存在するものと同じ問題や偏見を受け継いでいます。
これは、フランス語やスペイン語など、名詞を男性または女性に分類する必要がある言語に特に当てはまります。 たとえば、「医師」と「看護師」という単語を英語からスペイン語に翻訳する場合、それらには性別が関連付けられている必要があります。 機械翻訳エンジンがどのような性別を使用するかは、トレーニング データ内の医師と看護師に関連付けられている主要な性別に関連付けられる可能性があります。
「それは、私たちが望む世界ではなく、あるがままの世界を再現するようなものです。」
言語学のタボアダ教授は、「看護師は女性、医師は男性であることが予測されるだろう」と述べた。 「それは、私たちが望む世界ではなく、あるがままの世界を再現するようなものです。」
一方、他のトレーニング データ セットには、一部の言語では膨大な量のデータが含まれ、他の言語ではほとんど十分ではない可能性があります。これは、過小評価されている言語では機械翻訳エンジンがそれほど正確に機能しないことを意味します。 そのアルゴリズムは方言などのニュアンスを区別できない可能性があり、翻訳が不適切になる可能性があります。
AI バイアスの詳細Hey Siri、AI 音声アシスタントはジェンダー バイアスを強化しますか?
多くの場合、機械翻訳は人間による編集や支援がなければ正確な出力を生成できません。 機械翻訳エンジンにどれだけ多くのデータを投入しても、言語の微妙な点に苦労することになります。
機械翻訳は、特定の言語に特有のさまざまな構文ルールや文法ルールにつまずく傾向があります。 また、エンジンが業界用語や業界特有の専門用語など、トレーニングされていないまれな語彙や特殊な語彙に遭遇した場合、編集を行う人間がいないと、不正確または不完全な翻訳が吐き出される可能性があります。
また、多くの言語には、文字通りに翻訳すると意味をなさない慣用的な表現が含まれています。 たとえば、「喉にカエル」があるからといって、口の中に両生類がいるという意味ではありません。 それは彼らが声を失ったことを意味します。 機械翻訳エンジンはおそらくそれを認識せず、単に文字通りに翻訳するだけであり、他の言語では非常にぎこちない出力になる可能性があります。
このため、機械翻訳は、小説や物語的なジャーナリズムなど、よりクリエイティブな翻訳には最適なソリューションとは言えません。 機械翻訳には、元々ロシア語で書かれたフィクション作品である『戦争と平和』を精査し、他の言語に適切に翻訳するためのニュアンスや文脈のノウハウがありません。
「機械翻訳には頭脳がありません。」
「機械翻訳には頭脳がありません」とスマートリングのベレゴバヤ氏は言う。 「これはニューラル ネットワークですが、数学モデルです。そして、数学モデルは品詞を理解するように設計されていません。」
機械翻訳エンジンは文全体の解析には優れていますが、ある文とその前後の文との関係を理解するのは依然として困難です。 そのため、「メアリーは医者です。医者が部屋に入ってきました」をスペイン語に翻訳したい場合、エンジンは最初の文では「医者」を「メディカ」に正しく翻訳しますが、その後は誤って「メディコ」に翻訳してしまいます。 2 番目の文は、前の文の医師がメアリーという名前の女性であるという文脈を覚えていないためです。
この問題は、口調や文化など、他の形態の文脈でも現れる可能性があります。
たとえば、一部の言語では、呼び掛けられる相手に応じて異なる代名詞を使用します。フランス語で友人に呼びかける場合は「tu」と言い、上司に呼びかける場合は「vous」と呼びます。 ただし、機械翻訳エンジンは、フランス語の文法が文脈や文化とどのように絡み合っているかを理解していないため、その複雑さを理解できない可能性があります。
関連記事AIを活用してみませんか? まずはビジネスインテリジェンスに投資する
通常、機械翻訳は、ソース コンテンツが創造性よりも教育的でわかりやすい場合、または最終目標が完璧で微妙なニュアンスの翻訳を生成するのではなく、要点をすぐに理解することである場合に最も効果を発揮します。
ペアフレーズのウォイド氏は、「これはいわゆる『要旨』に適している」と述べ、「アイデアの要点を知りたい場合に適している」と語った。
世界中に多くの従業員を抱える企業の場合、全社に一律かつ包括的なコミュニケーションを送信するのは管理が難しい場合があります。 言語スキルはオフィスごと、従業員ごとに異なる場合があり、会社の業務用公用語に堪能でない人もいます。
機械翻訳は、企業が社内コミュニケーションを大規模に翻訳できるようにすることで、この言語の壁を下げるか取り除くのに役立ちます。 これは、テクニカル サポート チケット、社内報、プレゼンテーション、トレーニング資料の作成に役立ちます。
企業は、効率的に世界中の聴衆にリーチできるようにしたいと考えている外部コミュニケーションにも同じことが言えます。 ビデオ、ブログ投稿、マーケティング資料、製品レビューなどのユーザー生成コンテンツの翻訳に適しています。
たとえば、ベレゴバヤ氏によると、トリップアドバイザーのような企業は何年にもわたって機械翻訳を使用してすべてのユーザーレビューを翻訳しており、顧客はたとえばギリシャ語を知らなくてもサントリーニ島で最高のレストランが何かを理解できるようになっているという。
外部コミュニケーションと内部コミュニケーションの両方において、機械翻訳は、内容が翻訳言語で完全に流暢であることが必須でない限り、人間の翻訳者が関与していても、していなくても実行できます。
トレーニングまたはポストエディットに人間が関与する機械翻訳は、機械翻訳エンジンだけで処理するには複雑すぎるコンテンツに適しています。 あるいは、エンジンに問題が発生した場合のリスクが高すぎる可能性もあります。 これは、法律や医学などの高度に規制された分野、つまり特許、訴訟、臨床試験結果、薬物警告などのコンテンツの翻訳に適しています。
「人間が関与することで、100%適切で、使いやすく、流動的で、文法的に正しい、ブランドに合った翻訳を作成できます」とベレゴバヤ氏は語った。 「そこからユースケースは無限に広がります。」
ここでは、テクノロジーを活用した言語翻訳の新時代を到来させる、いくつかの機械翻訳ツールを紹介します。
おそらく最も人気のある機械翻訳ツールである Google 翻訳は、100 以上の言語で無料の翻訳サービスを提供しています。 これは、現在業界で標準的な手法となっているニューラル機械翻訳を実装したこの種の最初のエンジンの 1 つです。
ニューラル機械翻訳を使用して、プラットフォームはインターフェイスに直接入力されたテキストを翻訳します。 また、Google ドキュメントと統合されているため、ユーザーはそこでテキストを直接翻訳できます。 ユーザーが道路標識や新聞などの写真を撮ることもでき、Google 翻訳はその画像内のテキストを別の言語に自動的に翻訳します。
Microsoft Translator を使用すると、リアルタイムの会話からメニュー、Word 文書に至るまであらゆるものを翻訳できます。 また、エンタープライズ ビジネス、アプリ開発者、言語サービス プロバイダーが独自のニーズに合わせてニューラル翻訳システムを構築することを目的としたカスタム トランスレーター機能も備えています。 Custom Translator を使用すると、ユーザーは Azure の Translator サービスを使用してテキストをカスタマイズしたり、Azure の Speech サービスを使用して音声翻訳をカスタマイズしたりすることもできます。
Microsoft は教育向けに特別に作られたカスタム翻訳機能も提供しており、講義やプレゼンテーション、保護者と教師の会議や研究グループを翻訳してキャプションを付けることができるツールを提供しています。
ペアフレーズを使用すると、企業はスキャンした PDF から電子メールまであらゆるものを翻訳できます。 1 回の翻訳が完了すると、プラットフォームはその情報を保持し、機械学習を使用して時間の経過とともに品質を向上させます。
ペアフレーズはデータ セキュリティ コンポーネントも提供します。これは、生成 AI やその他の人工知能モデルが新たな種類のデータ プライバシー リスクを引き起こしている時代において、重要な違いです。 このプラットフォームを使用すると、企業はすべての専有文書、翻訳、用語集などを完全に機密かつ安全に保管し、公に共有したり、検索エンジンにインデックスしたりすることはありません。
詳細はこちら AI 生成コンテンツと著作権法: 私たちが知っていること
Amazon Translate はニューラル機械翻訳を使用して、高品質で高速な言語翻訳を可能にします。 このプラットフォームは、時間の経過とともにより正確な翻訳を生成するために継続的に改善されており、新しい言語も常に追加されています。
Translate は企業の他のチャネルに統合でき、さまざまな形式のコンテンツを処理できます。 そのカスタマイズ性と拡張性により、ユーザーが作成したコンテンツの翻訳から、チャット、電子メール、ヘルプ デスク、チケット発行アプリケーション内でのリアルタイム翻訳の追加まで、あらゆる種類のプロジェクトで簡単に使用できます。
Smartling の機械翻訳ツールは、Lyft、Shopify、Peloton を含む数百の企業で、多言語 Web サイト、マーケティング キャンペーン、Web およびモバイル製品、顧客エクスペリエンスの自動化と作成に使用されています。
クラウドベースの機械翻訳管理プラットフォームは、AI を活用したコンテンツとワークフローの管理、パフォーマンスと進行状況のダッシュボード、自動コンテンツ取り込みを提供します。 顧客は、直接通信してスタイル ガイドや用語集を共有できる Smartling の人間翻訳者、またはそのニューラル機械翻訳エンジンのいずれかを使用できます。
Unbabel のいわゆる「LangOps」プラットフォームは、人間による翻訳と機械翻訳の両方を組み合わせて、企業が多言語のカスタマー エクスペリエンス サービスを提供し、新しい市場に拡大できるように支援します。 これには、カスタマー サービス エージェントと顧客の間のリアルタイム チャット翻訳、プレス リリース、電子メール マーケティング キャンペーン、電子書籍やホワイト ペーパーが含まれます。
Unbable は企業の CRM に直接統合でき、弁護士は電子メール、チャット、ソーシャル メディアなど、すでに使用しているデジタル チャネルに統合できます。 同社は、企業が人間の翻訳者のみを使用する場合と比べて、コンテンツを最大 65% 早く展開し、コストを半分以下に削減できると主張しています。