Otter.ai の日本語認識精度を実測した:会議5本分の正確率と注意点をレポート

コミュニケーション・会議効率化

※本記事にはアフィリエイトリンクが含まれます。

の日本語精度が「実際どの程度か」を数字で示した記事を、調べても全然見つからなかった。

「英語精度は95%以上」という公式の数字は出てくる。でも日本語については「対応しました」という発表があるだけで、実測値はゼロだ。なので自分で計測することにした。この記事でわかること:

  • 場面別(1on1・複数人・専門用語あり)の体感正確率
  • よくある誤認識パターンと具体例
  • 使える場面・向かない場面の整理
meeting transcription accuracy
Photo by Ofspace LLC on Unsplash

Otter.ai が日本語に対応したのはいつか

2025年11月3日から。CEOのSam Liangが日本経済新聞への取材で発表した。それまでは英語専用ツールで、日本語を録音しても文字化けに近い状態になるか、英語で出力されるかのどちらかだった。

英語での実績精度は95%以上とOtter.ai公式が主張している。その技術を日本語に転用した、というのが公式のスタンスだ。

ただ、日本語精度の数値は一切公開されていない。「英語と同等の技術を使っている」というだけ。それが気になって、2週間かけて自分の会議で計測した。

実測した条件:どんな会議で試したか

週2〜3本のクライアントMTGに2週間かけて使った。全部で5本。条件はこんな感じ:

  • 1on1(2本):静かな自室、Zoomで1対1の打ち合わせ。主にWebマーケティングの進捗確認
  • 3人以上(2本):クライアント含め3〜4人の会議。複数人が話す場面あり
  • 専門用語あり(1本):マーケ用語(CPA・CVR・LTVなど)が頻出する戦略MTG

正確率の計算方法は単純で、録音終了後にOtterが出力した議事録テキストを、自分で手元に書き起こした文と1文ずつ照合して、意味が正確に取れた発言の割合を数えた。厳密な学術的計測ではないが、実務での使用感に近い評価はできると思っている。

場面別の正確率と誤認識パターン

1on1の静かな環境:想定よりは使えた

体感的な正確率は80〜85%程度だった。

驚いたのは、イントネーションが平板な普通の話し言葉は意外とうまく拾えること。「来週の月曜日にお送りします」とか「資料の3ページ目を確認してほしいんですが」みたいな普通の文は、ほぼ正確に出力された。

ただし以下のパターンは崩れた:

  • 語尾の「〜ですよね?」「〜じゃないですか」が頻繁に省略される
  • 速く話す部分が丸ごと飛ぶ(特に接続詞のあたり)
  • 同音異義語の判断は弱い。「改善」と「回線」、「費用」と「費用対効果」など

まあ、修正コストで言えば20〜30分あれば使える状態にできる。英語のときと比べると手間は増えるが、ゼロから書くよりは早い。

複数人が話す会議:認識が一気に崩れる

multiple speakers transcription
Photo by Nixon Becerra on Unsplash

3人以上になると、体感正確率は60〜65%まで落ちた。

一番しんどいのは声が重なる瞬間で、Otterはそこをうまく処理できない。誰かが相槌を打っただけでも、文字起こしがそこで途切れたり、別の話者の発言と混ざったりする。

具体的に何が起きたかというと:

  • 「はい、そうですね。ではXXXについてですが…」という発言が「はい。そうですね。でXXXに」で途切れた
  • 4人の会議で「話者1・話者2・話者3」の区別が途中から崩れて、全員が「話者1」に統一された
  • 3人が同時に笑ったタイミングで20秒分の発言が飛んだ

後で音声を聞き返しながら修正する作業に、1時間以上かかった。これは実務では使えないと判断した。

マーケ用語が多い会議:固有名詞の壊滅

専門用語が頻出する戦略MTGでは、さすがにひどかった。体感正確率は50〜55%。誤認識の大部分が専門用語と固有名詞だった。

実際に起きた誤変換:

  • CPA → 「シーピーエー」(カタカナそのまま。意味は通るが読みにくい)
  • CVR → 「シーブイアール」
  • LTV → 「エルティーブイ」
  • ランディングページ → 「ランニングページ」
  • コンバージョン → 「コンバーション」(毎回微妙に違う表記になる)

一応カスタム辞書機能があって、事前に用語を登録すれば精度は上がると言われている。ただ、クライアントごとに用語セットが変わるフリーランスの仕事では、毎回設定し直すのが現実的に面倒だ。

日本語精度で Otter.ai が向かない場面

整理するとこうなる:

  • 3人以上が参加する会議
  • 専門用語・固有名詞が多い業種(マーケ・IT・法律・医療など)
  • クライアントが早口な商談
  • 雑音のある環境(カフェ・共有オフィス等)

逆に、向いている場面:

  • 1対1の打ち合わせ(静かな環境)
  • 英語会議(これは今でも強い)
  • 発言が明確でゆっくりな社内MTG
otter ai japanese accuracy comparison
Photo by Detail .co on Unsplash

Notta と比べて日本語に強いのはどちらか

Otter.ai と Notta を3ヶ月使い比べた記事で詳しく比較しているが、日本語精度に限定すれば の方が上だと思う。Nottaは日本語ネイティブのエンジンを持っているのに対して、Otterは元々英語向けに最適化されたエンジンをそのまま日本語に転用している構造なので、文字種・文法・発音体系がまるで違う日本語を処理させる上での根本的な設計差が精度に影響しているとも考えられる。

ただ、Otter.ai も2025年11月から継続的に改善している。今この瞬間の比較では Notta 優位だが、3〜6ヶ月後には変わっているかもしれない。

まとめ:現時点での正直な評価

Otter.ai の日本語精度は、場面を選べば実用できる水準に達している。1on1の打ち合わせなら修正コストが許容範囲内だ。

ただ、複数人会議や専門用語が多い場面では、今の精度では実務に使いにくい。そこを期待して導入すると失敗する。「英語会議はOtter、日本語会議はNotta」という使い分けが、フリーランスには現実的な結論だと思う。

日本語版のリリースから日が浅く、精度改善は継続中のはず。半年後にまた計測してみたいと思っている。結論が変わったら更新する。

なんだかんだ言って、英語会議での使い心地は今でも悪くない。日本語に関しては「まだ発展途上」という評価が今のところ正直なところだ。


合わせて読みたい

コメント

タイトルとURLをコピーしました