tenjuu99(天重誠二)'s avatar
tenjuu99(天重誠二)

@tenjuu99@hollo.tenjuu.net

日本語・英語環境でのトークイベントまじで難しかったな。前日にclaudeになんとなく、自動翻訳字幕ってできたりする?って聞いたら「できますよ!」っていうから3時間くらいで作ってみて、機能はするんだけど、実際のもっとチューニングが必要で、あんまり使えなかった。

tenjuu99(天重誠二)'s avatar
tenjuu99(天重誠二)

@tenjuu99@hollo.tenjuu.net · Reply to tenjuu99(天重誠二)'s post

仕組みとしては、ブラウザの音声認識機能で文字起こしをして、その文字をAIに投げて翻訳させて、返ってきた翻訳文を字幕に出すというもの(OBSに読み込ませてオーバーレイで表示する)。たしかに上手くできているんだけど、

  1. どのタイミングでAIに投げるかが難しい。喋っていると区切りが見付からないまま、長文がバッファされ、その長文をAIに投げることになると、会話のリズムに間にあわない。また、この長さがどのくらいになるかを予想できていなかったから、5秒で消える設定になっていたけど、短すぎて読めない。
  2. 音声認識がブラウザ依存になっているので、事前に文脈から語彙が推測できる場合でも、音声のみから文言を起こそうとするので、音声認識の精度がブラウザに依存する。生成AIであればプロンプトを与えておけば文脈を指定できるから音声認識の精度があがるはずだけど、それはこの仕組みではできなかった。