この記事ではwhisperの基本的な使い方を解説します。
whisperを活用することで、Pythonで音声認識アプリの作成ができるようになります。
基礎的なコード例を交えてwhisperの基本を習得しましょう。
whisperとは
whisperとは、OpenAIが開発している汎用的な音声認識モデルです。WEBから収集した68万時間分の音声データを学習しており、多言語の文字起こしと、英語への翻訳ができます。
下の図は、whisperの論文中に示されているアーキテクチャです。
ChatGPTやBERTなどと同じで、Transformerがベースとなっています。
基本的な使い方
Google Colabratoryを使ってWhisperによる文字起こしを行います。
Google ColabratoryはGPUが使用できるため、ランタイムをNoneからGPUに変更します。
Googleドライブをマウントします。
コードを実行すると以下の画面が表示されるので、Googleドライブに接続を選択します。
アカウントを選択します。
画面をスクロールして許可を選択します。
Googleドライブをマウントできたらgithubよりwhisperをインストールします。
インストールできたら以下のコードを実行します。
このコードによって選択した音声データの文字起こしができます。
今回は”base”モデルを使用していますが、whisperには5つのモデルサイズが用意されています。サイズが大きくなるほど精度が高くなりますが、必要なvram(GPUメモリ)も増えます。
実際に使ってみました
【ソースコード】
yt-dlp_whisper.ipynb
まとめ
whisperの基本的な使い方を解説しました。同時翻訳アプリや議事録作成アプリを作成したい方は是非試してみてください。
Python 基礎文法の教科書を執筆しました!
コメント