文字起こし
From Wikipedia, the free encyclopedia
文字起こし(もじおこし)とは、音声や動画に含まれる発話内容を文字として書き起こす作業を指す。会議記録やインタビュー、講演、裁判記録、学術研究、動画字幕の作成など、幅広い分野で利用されている。
現代日本語においては、「文字起こし」が録音・録画媒体を限定しない総称として最も一般的に用いられており、「テープ起こし」「反訳」などの関連する呼称が存在する。[1]
録音技術が一般化する以前は、速記によって記録された内容を通常の文字に戻す作業が行われており、[2]この工程は反訳と呼ばれていた。その後、録音媒体の普及に伴い、録音された音声を文字に起こす作業が一般化し、テープ起こしという表現が広く用いられるようになった。
近年では、デジタル録音や動画配信、オンライン会議など媒体が多様化したことから、特定の媒体に依存しない文字起こしという語が一般的な表現として定着している。
文字起こしの方法
文字起こしの方法は、大きく手動文字起こしと自動文字起こしに分けられる。
手動文字起こし(人手による反訳)
人間が音声や映像を再生しながら内容を理解し、文字として書き起こす方法である。[3]発話の文脈理解、専門用語への対応、複数名の話者認識、雑音が含まれる音声への対応に優れており、高い正確性が求められる場面で利用される。
日本では、東京反訳、コエラボなどの事業者が知られている。
自動文字起こし(AIによる反訳)
AIによる自動音声認識(ASR: Automatic Speech Recognition)技術を用いて、音声を自動的に文字化する方法である。[4]短時間で大量の音声を処理できる点や、比較的低コストで利用できる点が特徴とされる一方、音質や話者の発話速度、専門用語などの条件によっては精度が劣る場合がある。
日本語対応のサービスとしては、Notta、AmiVoiceなどが広く利用されている。また2026年現在は、Google Meet/Microsoft Teamsなどのオンライン会議サービスの一機能として実装される例も多い。
手動文字起こしと自動文字起こしの違い
| 項目 | 手動文字起こし | 自動文字起こし |
|---|---|---|
| 品質 | 極めて高い。話者の特定、専門用語、方言、雑音があっても正確に再現可能。 | 中程度〜高い。同音異義語や専門用語、複数話者の区別に弱く、条件によって誤認識が生じる。 |
| 納期/速度 | 人の作業時間を要する。 | 比較的短時間で処理可能。 |
| 費用 | 高価(人件費がかかるため)。 | 安価または無料の場合が多い。 |
| 処理手順 | 専門の反訳者が音声を再生し、手動でタイピング・校正・ケバ取り・整文などを行う。 | AIが音声をテキストに変換し、ユーザー自身が校正(ケバ取り、整文など)を行う必要がある。 |
| 得意な用途 | 裁判記録、医療記録、重要な会議議事録、聞き取りにくい講演。 | 社内メモ、簡単なWeb会議、動画の仮字幕、速報性が必要な場面。 |
| メリット | 最高精度の納品物、整文・要約など付加サービスの利用が可能。 | スピード、低コスト。 |
| デメリット | 高コスト、納期も比較的長い。 | 校正作業が必須、音質不良に弱い。 |
ハイブリッド文字起こし
自動文字起こしで一次原稿を作成し、その後人間が内容を確認しながら、誤認識の修正や整文、話者識別の補正などを行う方法。
自動処理による迅速性と、人間による文脈理解を両立させることを目的としており、主に長時間の会議録やインタビュー記録などにおいて、作業効率と品質のバランスを取る手段として利用されることがある。
品質レベルと作業工程
文字起こしでは、目的に応じてさまざまな品質レベルや作業工程が用いられる。
- 素起こし
- 言いよどみや不要語(「えー」「あのー」など)を含め、発話内容をすべて書き起こす方法。
- ケバ取り
- 不要語を除去し、読みやすく整える工程。
- 整文
- 文法や表現を整え、文章として完成させる作業。[5]
利用分野
文字起こしは、以下のような分野で利用されている。
- 会議・議事録作成
- インタビュー・取材記録
- 学術研究・調査
- 医療・法務関連の記録
- メディア制作
- 動画字幕やアクセシビリティ対応