amazon
February 21, 2020

AIに文字起こしを任せたい 2020年2月現在

●取材時の録音を聴きながら文字に起こす、通称「文字起こし」。少し前までは「テープ起こし」と呼んでいて、今でもうっかり「テープ起こし」と言ってしまいそうになるのだが、「テープ」なんてもはや意味不明の死語だ(カセットテープのこと)。現在は写真のような専用のICレコーダーに録音して、PCに取り込んでいる。
●で、その文字起こし、インタビュー仕事などでは避けられない作業だが、ワタシはこれが大大大嫌いで、近年は文字起こしが必要な仕事はなるべく避けるようにしているほど。ただし、一気に状況が変化するかも、と思えるのが近年のAIを用いた文字起こしサービス。深層学習プロセスを活用した自動音声認識によって、音声をテキストに変換するサービスがすでに始まっている。英語圏では十分に実用レベルと評価されているようなので、日本語ではどうなのか、試してみることにした。使用したのはMicrosoft Video Indexer(映像でも音声のみでも使える)とAmazon Transcribe。
●結論から言えば、両方とも現時点では実用レベルにはあと一歩か二歩といったところ。よく健闘しているが、かなり条件のよい録音で試してもここから原稿をまとめるのは無理だと感じた。同じ音声を Microsoft Video IndexerAmazon Transcribe の両方で試してみたところ、仕上がりは似たり寄ったりという印象。AWSに親しんでいる人は別かもしれないけど、とっつきやすいのはMicrosoft Video Indexerかな。
●どれくらいのテキストが出てくるか、見てみたいっすよね? 先日、ONTOMOの対談企画「音楽配信とガジェットを語る会」で自分がしゃべった部分をMicrosoft Video Indexerがどんなふうに起こしてくれたかというと、こんな感じだ。冒頭で対談の趣旨を説明した部分。

まず、今回の基地の趣旨を説明します。それはええ、みんなが普段どうやって家で音楽を聴いているかっていう話ではない。ええ、昔は音楽を聴くときに言わなかったと思うんですよ。一昔前までは。それはcdを買ってきて、家にどんなcdプレーヤーを使うかとか、そういう程度の話だったんだけれども、今cdの時代が終わったりつつあってへぇじゃあ皆今一体どうやって音楽聴いてるのっていうともう話がも千差万別でね。みなさん違ってるからじゃあ皆さん、今どんな風にして音楽聞いてるのかなっていう事をお尋ねしたいというのが趣旨です。

●すごく健闘している。本当のところ、ワタシはどう話していたか、人力で起こすとこんな感じ。もともとそのまま文字にして原稿になるようなしゃべり方はしていない(そんなことできるわけない)。

まず、今回の記事の趣旨を説明します! それは、みんなが普段、どうやって家で音楽を聴いているか、っていう話です。昔は音楽を聴くときに悩みはなかったと思うんですよ。CDを買ってきて、家でどんなCDプレーヤーを使うかとか、そんな程度の話だったんだけれども、今CDの時代が終わりつつあって、じゃあみんな今いったいどうやって音楽を聴いているの? となると話が千差万別で、みなさん違っている。だからじゃあみなさん、今どんなふうに音楽を聴いているのかなっていうことをお尋ねしたい。というのが趣旨です!

●「記事」が「基地」になるとかは、記憶でカバーできるからなんとかなるかなと思うんだけど、実際にAIが起こしたテキストだけを使って原稿を書こうと思ってもやっぱり無理で、結局、従来通り人力で起こすことになってしまった。ただ、いい線はいっているのだ。期待。