仕組みとしては、ブラウザの音声認識機能で文字起こしをして、そ…

@tenjuu99@hollo.tenjuu.net · Reply to tenjuu99(天重誠二)'s post

仕組みとしては、ブラウザの音声認識機能で文字起こしをして、その文字をAIに投げて翻訳させて、返ってきた翻訳文を字幕に出すというもの(OBSに読み込ませてオーバーレイで表示する)。たしかに上手くできているんだけど、

どのタイミングでAIに投げるかが難しい。喋っていると区切りが見付からないまま、長文がバッファされ、その長文をAIに投げることになると、会話のリズムに間にあわない。また、この長さがどのくらいになるかを予想できていなかったから、5秒で消える設定になっていたけど、短すぎて読めない。
音声認識がブラウザ依存になっているので、事前に文脈から語彙が推測できる場合でも、音声のみから文言を起こそうとするので、音声認識の精度がブラウザに依存する。生成AIであればプロンプトを与えておけば文脈を指定できるから音声認識の精度があがるはずだけど、それはこの仕組みではできなかった。