会議を録音した音声ファイルを「音声認識エンジン」にかけて、テキストファイルとして議事録を出力させようと考えたことがある人は多いと思います。DXのターゲットとしても、無駄な作業の撲滅という観点では非常に魅力的です。
「議事録を書く」という作業は、多くの企業で若手社員に押し付けられる典型的雑務ですが、実のところかなり時間を浪費します。1時間の会議の議事録を起こすのに、慣れていても2時間くらいかかったりします。さらにセンパイのチェックが入って、てにをはの修正を入れて、という古臭い日本企業のお作法を見ていると、こいつら本当にヒマなんだろうな、と思います。
議事録のタイプ
議事録も3種類くらいあります。
1.会議の要点と今後のアクションだけ箇条書きにした議事録(さっぱり!)
2.会議の話題事に内容を構造化して見やすくしているものの、基本的には重要な発言については文章化した議事録(うんげー)
3.発言をそのまま文字起こししたディクテーション型議事録(この組織クソだ)

1の議事録は通常必須です。これが作れない会議は生産性の低い会議といっても差し支えないでしょう。一方で、2の議事録を取らされている若者には「お気の毒」と言いたいですし、毎回3の議事録をとらされている人には転職エージェントへの登録をお勧めしたいです。だって、2にせよ、3にせよ、どれだけ頑張って誤字脱字のない完璧な議事録をとっても、どうせ誰も見ないから。ケインズの言う穴を掘って埋めるような不毛な作業です。御社は若手が公共事業をやっているんですか?
もちろん、システム開発の失敗に関する訴訟をしかけ、逆に賠償金を支払うことになってしまった野●證券のような、荒ぶる獅子の如き顧客を相手に大型システム開発をする場合など、どうしても3の議事録を取らざるを得ないケースも出てきます。
こんな議事録作成に時間をとるくらいなら、音声認識で議事録を取りたい、と考える人がでてきてもおかしくはありません。3の議事録はもちろん、2の議事録の場合でも、音声認識がうまくいくなら時間短縮の効果はありそうです。
ただ残念ながら結論から言えば、2021年8月時点で日本語の音声認識エンジンはまだ実用精度に達しているとは言えません。
音声認識エンジンの議事認識能力
音声認識エンジンとして2021年8月時点で一番精度が高そうなのが、Google Speech to Text とアドバンストメディア社のAmiVoice です。
どんな音声がどんな議事録になるか、音声ファイルを実際に音声認識にかけてみましょう。以下の音声認識結果は会議の音声ファイルをGoogle Speech to Text にかけたものです。※Google Speech to Text はなぜか句読点が打たれず読みにくいですが、認識結果をそのまま掲載しています。
すごくクリアなプレゼン
認識結果:Very Good!
それでは本日の議題である日本国内のペット関連市場について発表させていただきますまず日本国内のペット関連市場の市場規模についてご説明致します日本のペット関連市場は2021年時点で1.5兆円ですが2025年には1.6兆円を超えるものと推定されます
まあまあクリアなプレゼン
認識結果:Not Good
今検討する気なんでしょというの書いてるのが一番酒盛りですが入る皿にしといて冷蔵庫でそこだったりとかこのアプリケーションはものすごく細かく変化に強くちょっと変更が素早くできてジュースが早くなるようなマイクロサービスだったりとかこれのマイクロサービスってどんどんと変更していくのでもそうするとコンテナというところですねさっきのインフラザコードって何回でもできて何回でもなぜか作れますという所だったりするところのコンテナありとかさそれをチェックするのはかんなびかせんたー送れるさんところでもいいですけども例えば新しいアプリケーションだったらどんだけワークロードが跳ねるかわからないからまずはクラブでやってみてこれがものすごくどんどんアドレス
音が悪い上に複数人が話をしている状態
認識結果:Bad
多くのものを買ってしまったら出来上がるに早くて36ヶ月ですね餃子3前で知らなかったら排除しませんしてもわからな い不動産に行った日が何個も買ってきたら話すねだからそのビジネスモデル塩をまく寿司にならないんですよ構造上だって出した瞬間ってあるそろばんとかかんとか言っただけだし大変すべき機能だらけなんですよそこのパート代なのにそれをゴールにしちゃってる時点で頭おかしいおかしい
要するにアナウンサーのようにきちんと話してくれれば、きちんと音声認識できるといったレベルです。
対面会議での音声認識議事録
実は上記の音声ファイルはすべてオンライン会議の音声を録音したものです。コロナのせいで最近めっきり減りましたが、対面会議の場合、マイク設置位置というもう一つ大きな問題が発生します。マイクの設置場所が話者から離れれば離れるほど、マイクが拾える音量は加速度的に小さくなります(音量は話者とマイクの距離の2乗に反比例します)。このため、無指向性のマイクで話声を拾おうとすると「音声認識できない人」が出てしまうわけです。
会議室用の音声認識装置というプロダクトもいくつか登場していますが、説明書をよく見たら「全員がマイクから1m以内で話して下さい」といった、「ありえねーだろ」とツッコミを入れたくなる動作条件が書かれていたりします。家庭の食卓かよ。でも、 無指向性の マイク一つで音声認識の精度を出すためにはそれくらいの条件が必要なわけです。

この世には会議議事録をとる専門の会社というのもあって、中央政府や地方自治体の公式な会議のディクテーション型議事録を作成することをナリワイとしている会社ですが、こういった会社では音声認識を多用します。しかし、会議が始まる前に、(他の人の声を拾わないように)指向性が非常に強いマイクを、参加者全員の口元付近を狙って席ごとに設置しておきます。ここまでやれば音声認識が有効に機能します。逆に言えばここまでやらないと音声認識は機能しないということです。事前の入念なセットアップなしではできないので、一般的な会議では非現実的です。

会議室マイクの問題は少しずつ改善されています。ソフトウェアでマイクに指向性を持たせる研究が進んでいるからです。Amazonエコーや Google Home といったスマートスピーカを使ったことがある方は分かると思いますが、離れた場所から「アレクサ!」と話しても反応します。基本的な原理を言えば、Amazonエコーの筒の中には多数のマイクが外向きに取付けられていて、声の音波の到着タイミングの差分から、どの方角から声が発せられたか推定し、その方向の声だけ音声認識されるような処理をしています。
このようなソフトウェア型の指向性マイクが普及するのも時間の問題なので、会議室での音声認識議事録ももう少しで実現できるかもしれません。
録音ファイル+要旨の箇条書き だけ残しておけば良くないか?
しかしね、君。良く考えたら「言った、言わない」の証拠を残しておくのが目的なら「録音ファイルを残しておけばいいのでは?」と思うでしょう? 別に文字で残す意味は無いですよね? 元の目的に立ち返れば関係者の意識合わせのため「要点と次のアクションだけ箇条書き」といった最小限の議事録を作成して、あとは元の録音ファイルを残しておけば、音声認識さえ不要なのです。もちろん、これまで主流だった対面会議では上記のマイク問題があったので全員の声を録音することも簡単ではなかったわけですが、オンライン会議が主流になっている今日、会話内容を録音しておくだけで十分でしょう。
DXの半分はトランスフォーメーションなので、今まで必要だと思い込んでいた業務をバッサリ切り捨てるというのも正しいDXのありかただろうと思います。昭和や平成の時代では、文字で残すしかなかったから議事録を取っていただけのことで、議事録をとることは日本古来のお作法でも、若手ビジネスマンが身に着けるべき基本動作でも何でもないのです。思考停止して形骸だけ残っている状態といえるでしょう。「オンライン会議の録音+要点だけ短く箇条書き」というのが議事録に関するDXだと思うのですよね。

AIが録音ファイルだけでなくスライド画像も残してくれる会議DXの決定版 ~Summary Shots~
記事の最後に少しだけ宣伝させてください。弊社 Tokyo Propertiesで開発した Summary Shots というWindows ソフトは、テレビ会議で表示されたスライドをAIが識別して自動でスクショをとるとともに、音声の録音もしてくれます。画面全体を動画で残すより圧倒的に小さい容量で会議内容を保存できますし、スライドをすべて静止画で残せるため振り返りも非常に簡単にできます。

ZOOMやTeams などあらゆるテレビ会議に対応しています。こちらのページから無料体験版(15分の利用制限あり)をお試しいただけます。会議のDX推進のため是非お試しください。
まとめ
オンライン会議時代においては、会議DXは「録音+要点箇条書き」だけでOK。スライドも保存したければ、Summary Shots を使うべし。
自分で音声認識エンジンを活用した議事録作成システムを開発? いや、この件については、余計なことはしなくていいです。