K's Atelier

個人的な学習記録

English as a standard programming language

AWSの講師準備教材は,全部英語だ。

ChatGPTは英語でやりとりした方が圧倒的に精度が高い。

日本語の情報は,機械翻訳を通した場合,想定外の翻訳がされている恐れがある。

 

大変厳しいことだが,こと技術に関しては日本語の情報は2次情報であり,従来よりもさらに信用がおけない状況になっている。

これが昔であれば,公式の日本語情報にはある程度人間が関与していた。査読,校正が入っていたので,技術的におかしい部分はある程度修正されていた。

しかし,最近の日本語情報は機械翻訳そのまま垂れ流しの部分が相当ある。O'Reillyのオンラインサービスでは「機械翻訳を使えば英語の本を日本語で読めます」という利用法説明があった。機械翻訳は人による翻訳と違って「意味や価値を理解しない」。情報の距離的に近いものを組み合わせて勝手に情報を再生成してしまう。機械翻訳を通しただけの文章は,従来からある翻訳者の翻訳とは全く違う。機械翻訳を通しただけの技術文書を鵜呑みにするのは危険だ。

 

ChatGPTやDeepLの登場で,英語不得意な日本人にとっては福音とも思える状況だが,この機械翻訳が肝心なところで信用できない。結局は情報の正誤を判断しないといけないのだが,照合に日本語情報を使用すると,そちらも機械翻訳だったりする。すでに何が1次情報(=人間が査読した情報)なのか分からなくなりつつある。

今後は生成AIが出力した情報を再度,生成AIが入力情報として学習する状況が頻発するだろう。技術情報としてはかなりまずい状況だ。真偽不明の情報が生成AIから正しい出力として出されるとしたら,"Money laundering"ならぬ"Information laundering"になり得る(そんな言葉があるかどうか知らないが。ほらこれも真偽不明な情報だ)。

 

すでに画像生成AIでは,知らないうちに非現実の生物を生成してしまっている事態がおきている。

AIの画像補正技術が高すぎて、そこに存在しない生物を作り出して起きてしまった悲劇 - Togetter

 

少しでも間違いを減らすには,可能な限り1次情報を解釈するしかない。プログラミング界隈で言えば,生成AIの登場以降はもう英語を「プログラミング言語」として認識して,「プログラミング言語としての英語を訓練する」状況になってきていると感じる。

英語での日常会話などできなくて良いが,技術的に間違った解釈をする方法(=機械翻訳垂れ流し)を避けなければ,「日本人技術者は不正確な情報をもとに,間違ったことをする」という結果につながるのではないか。