●一部職業の人々にとって注目度の高いトピックス、AIによる文字おこしの話題を。「文字起こし」とはインタビュー取材とか会議などの録音をテキストにすること。昔は録音を聴きながら人力で起こすしかなかったわけだが、近年は音声データからAIが自動的に文字を起こすサービスがいくつかある。
●で、今から2年半ほど前に、Microsoft Video Indexer と Amazon Transcribeによる文字おこしを比較してみたことがあった(→該当記事)。その後、AI文字起こしサービスがいくつか立ち上がっており、最近、Rimo VoiceとNottaというふたつのサービスを無料体験で試してみた。結論から言うと、日本語文字起こしの精度はその頃から思ったほどは変わっていないなと実感。つまり、とても役立つものではあるが、起こした文字がそのまま使えるようなものではない。聞きまちがいは多いし、語彙もまだまだ乏しい。取材現場に自分も当事者として立ち会っていれば(記憶があるので)文字から内容は理解できるが、もし立ち会っていなかったらあまり理解できなさそう。2年半前はこれでも十分に感動したが、今の時点ではもう一段階、技術的なブレイクスルーを求めたくなる。なお、音声データはノイズの少ない静かな環境でICレコーダーをインタビューイのすぐ近くに置いて録音したものを使用した。日本語のみ。
●ただ、今回、Rimo Voiceを使ってみて改めて感じたんだけど、実用性は高いんすよ。画面上の文字データをクリックするとその該当箇所の音声が流れるようになっている(これはMicrosoft Video Indexerでもできるし、他のサービスでもきっとできると思う)。本当に必要なのは文字起こしの精度以上に、こっちの機能なのかも。つまり、これがあれば原稿に必要な部分だけピックアップして聴き直せばいいわけで、作業効率は格段に上がる。
●自分は特段の理由がないかぎりアーティスト・インタビューの仕事は受けないので、この分野の動向にそう詳しいわけではないのだが、だれかの役に立つかもしれないので記録しておく次第。利用者が増えれば、AIの品質も上がるだろうし。
November 8, 2022