【Whisper】Pythonで簡単に文字起こしをしよう

この記事ではwhisperの基本的な使い方を解説します。
whisperを活用することで、Pythonで音声認識アプリの作成ができるようになります。
基礎的なコード例を交えてwhisperの基本を習得しましょう。

Contents

whisperとは

whisperとは、OpenAIが開発している汎用的な音声認識モデルです。WEBから収集した68万時間分の音声データを学習しており、多言語の文字起こしと、英語への翻訳ができます。

字幕作成、議事録作成、同時翻訳など幅広い用途に利用できます。

下の図は、whisperの論文中に示されているアーキテクチャです。
ChatGPTやBERTなどと同じで、Transformerがベースとなっています。

Google Colabratoryを使ってWhisperによる文字起こしを行います。

Google ColabratoryはGPUが使用できるため、ランタイムをNoneからGPUに変更します。

Googleドライブをマウントします。

コードを実行すると以下の画面が表示されるので、Googleドライブに接続を選択します。

アカウントを選択します。

画面をスクロールして許可を選択します。

Googleドライブをマウントできたらgithubよりwhisperをインストールします。

インストールできたら以下のコードを実行します。

このコードによって選択した音声データの文字起こしができます。

今回は”base”モデルを使用していますが、whisperには５つのモデルサイズが用意されています。サイズが大きくなるほど精度が高くなりますが、必要なvram(GPUメモリ)も増えます。

翻訳したい場合は、model.transcribeの引数にtask=”translate”を追加します。

実際に使ってみました

yt-dlpとwhisperを使ったYouTube動画の文字起こし

【ソースコード】
yt-dlp_whisper.ipynb

whisperの基本的な使い方を解説しました。同時翻訳アプリや議事録作成アプリを作成したい方は是非試してみてください。

Python 基礎文法の教科書を執筆しました！

Python 基礎文法の教科書