Whisper(ウィスパー)はWebブラウザまたはターミナル上で利用可能な文字起こしサービスです。
文字起こしを行うサービスは世の中探せば色々とありますが、ChatGPTやDALL-E3などで躍進中のOpenAI社が提供しているサービスということで、他とは異なる何かを感じることが出来るかもしれません。
アクセス(環境構築)方法
Whisperの利用方式には大まかに分けて以下の2パターンが存在します。
- 自分で実行環境を用意して利用する(無料)
- OpenAI社が提供しているAPIを利用する(有料)
ここでは上記「1」で、且つ実行環境にGoogle Colaboratory(Google Colab)を利用した場合の手順を記載していきます。
1. WebブラウザからGoogle Colaboratoryにアクセスする
事前にGoogleアカウントを用意したうえで任意のWebブラウザからhttps://colab.research.google.com/?hl=jaにアクセスします。
2. 「ノートブックを新規作成」をクリックする
「ノートブックを開く」のウィンドウが表示されたら左下の「ノートブックを新規作成」をクリックします。
3. 「接続」をクリックする
「Untitled0.ipynb」と記載されたページが表示されたら、画面右上の「接続」をクリックします。
「接続」の表示が「接続中」から「RAMディスク」と変わるまで待ちます。
4. Whisperをインストールする
「コーディングを開始するか、AIで生成します」と書かれたテキストボックスに!pip install git+https://github.com/openai/whisper.git
と入力して左側の再生ボタンをクリックします。
ボタンをクリックすることでインストールが行われますが、処理の最後にSuccessfully installed openai-whisper…と表示されていれば正常にインストールは完了しています。
5. 必要なモジュールをインポートする
画面右上の「コード」をクリックして画面下にコードの入力欄を表示させ、import whisper
と入力してから左側の再生ボタンをクリックします。
ボタンをクリック後、エラーなどが表示されていなければWhisperの導入は正常に完了しています。
利用料金について
上で説明したように自分でWhisperの実行環境を用意して利用する場合は無料で利用可能です。
上記以外のやり方、例えば別のシステムからWhisperの機能を利用する…いわゆるAPIと呼ばれるものですが、その場合は取り込ませる音声ファイルの尺1分につき0.006ドルの料金が掛かります。
2024年2月18日時点だと1ドル150.22円なので1分あたり0.9円程度…合計で1時間の音声ファイルを取り込んだ場合でも54円程度ではあります。
Whisperで出来ること
音声ファイルから文字起こしをさせる
1. 音声ファイルを「content」フォルダにアップロードする
Google Colaboratoryの画面左側にあるメニューからフォルダのアイコンをクリックし、表示された「content」フォルダの中に文字起こし対象の音声ファイルをアップロードします。
2. コードをクリックし、命令文を入力する
音声ファイルのアップロードが完了したら画面上にある「コード」をクリックして画面下にコード入力欄を表示させ、以下のコマンドを入力して左側の再生ボタンをクリックすると文字起こしが実行されます。
model = whisper.load_model('モデル名を入力')
result = model.transcribe('ファイル名を入力')
print(result['text'])
上記のコマンドにおいて選択できるモデル名と特徴は以下のとおりです。
tiny | 最も処理が速いが文字起こしの正確さは最低レベル |
base | 処理にかかる時間はtinyの2倍程度。正確さはtinyと同程度 |
small | 処理にかかる時間はbaseの3倍程度。正確さはbaseに毛が生えた程度 |
medium | 処理にかかる時間はsmallの3倍程度。正確さは高く実務にもギリギリ耐えうる |
large | 処理にかかる時間はmediumのn倍程度。デフォルト設定のGoogle Colabだと処理完了前にクラッシュする可能性が高い。文字起こしはかなり正確 |
3. 文字起こしの結果を確認する
処理が完了すると画面下に生成結果が表示されるので内容を確認します。
ちなみに、サンプルとしてアップロードしていたのは以下の音声ファイルです。
VOICEVOXで適当なニュースをずんだもんに読ませたものですが、彼(彼女?)が喋っていた内容は以下の通り。
JAXA、小惑星探査機「はやぶさ2」のサンプル持ち帰りカプセルを回収
宇宙航空研究開発機構(JAXA)は、小惑星リュウグウからサンプルを採取した探査機「はやぶさ2」のサンプル持ち帰りカプセルを、17日午後、南オーストラリア州の砂漠で回収しました。
カプセルは、予定時刻より約1時間遅れて地上に落下。回収チームがヘリコプターで現場に急行し、無事回収しました。
カプセルは、今後JAXAの相模原キャンパスに運ばれ、内部のサンプルが分析されます。
今回のサンプルは、太陽系の初期の物質を包含している可能性があり、地球や生命の起源の解明に役立つと期待されています。
以上、2024年2月17日のニュースをお伝えしました。
上記内容を踏まえ各モデルで文字起こしをさせた結果を処理時間も含めてそれぞれ列挙していきます。
tiny:11秒
ジャクサ、商学生探索、早ぶさつ、モサンプルも近いリコクセルを回収、宇宙行空間休顔発機構、ジャクサ、まあ商学生流ぐからサンプルを最終した探索、早ぶさつ、モサンプルも近いリコクセルを、収紫日後、南をストラリア州のサバクで回収しました。各セルは、予定自覆より約1時間送れて非常に楽が、回収地位もが減り国ターで連丸に休顔し、不自会収しました。各セルは、今後ジャクサのサバミハラキャンパスに運ばれ、内部のサンプルが分析されます。今回のサンプルは、対応系の職員の武士充報がしている可能性があり、必要や正面の危険の概念に役立つと期待されています。以上、2020年2月17日のニュースを伝えしました。
何を言っているのか全然わからん。
base:23秒
じゃくさ、小学生探索器、早部札、ノサンプル持ち返り隠せるを回収、宇宙航空研究開発機構、じゃくさ、は、小学生流部からサンプルを再収した探索器、早部札、ノサンプル持ち返り隠せるを周期に事後、南応ストラリア州の砂漠で回収しました。隠せるは、予定時刻より約1時間をくれて地上に落下、回収チームが減りコクターで連馬に急行し、無事回収しました。隠せるは、今後着作の探索ミハラキャンパスに運ばれ、内部のサンプルが分析されます。今回のサンプルは、太陽系の初期の物質を放害している可能性があり、地球や生命の機限の海面に役立つと期待されています。以上、2024年2月17日のニュースをお伝えしました。
語彙力が無さすぎるのが良くないのだろうか。
small:72秒
着差、小学生探査機、早部札、ノサンプル持ち帰りカクセルを回収宇宙航空研究開発機構、着差、は、小学生竜具からサンプルを採取した探査機早部札、ノサンプル持ち帰りカクセルを17日午後、南オーストラリア州の砂漠で回収しましたカクセルは予定時刻より約1時間遅れて地上に落下回収チームがヘリコクターで電話に休校し、無事回収しましたカクセルは、混合着差のさがみ原キャンパスに運ばれ、内部のサンプルが分析されます今回のサンプルは、太陽系の初期の物質を放岸している可能性があり、地球や生命の期限の解明に役立つと期待されています以上、2024年2月17日のニュースをお伝えしました
こちらも固有名詞が軒並み駄目な感じですが、baseよりはマシかもしれません。
medium:233秒
JACSA 小惑星探査機 ハヤブサツのサンプル持ち帰りカクセルを回収宇宙航空研究開発機構 JACSA は小惑星竜宮からサンプルを採取した探査機ハヤブサツのサンプル持ち帰りカクセルを17日後後南オーストラリア州の砂漠で回収しましたカクセルは予定時刻より約1時間遅れて地上に落下回収チームがヘリコプターで現場に急行し 無事回収しましたカクセルは今後JACSAの相模原キャンパスに運ばれ 内部のサンプルが分析されます今回のサンプルは太陽系の初期の物質を包含している可能性があり地球や生命の起源の解明に役立つと期待されています以上、2024年2月17日のニュースをお伝えしました
処理時間は結構掛かるようになりましたが、文字起こしの精度もかなり向上しています。
large:102秒(参考)
JAXA小惑星探査機ハヤブサツのサンプル持ち帰りカクセルを回収宇宙航空研究開発機構JAXAは小惑星竜宮からサンプルを採取した探査機ハヤブサツのサンプル持ち帰りカクセルを17日午後南オーストラリア州の砂漠で回収しましたカクセルは予定時刻より約1時間遅れて地上に落下回収チームがヘリコプターで現場に急行し無事回収しましたカクセルはコンボJAXAの相模原キャンパスに運ばれ内部のサンプルが分析されます今回のサンプルは太陽系の初期の物質を包含している可能性があり気球や生命の起源の解明に役立つと期待されています以上、2024年2月17日のニュースをお伝えしました
読点やスペースがほぼ無くなっており読みにくいですが、文字起こしの精度自体はmediumよりも高いです。
ちなみにlargeに関してはデフォルトのランタイムタイプ(システムRAM)だと処理が完了する前にクラッシュしてしまったので、T4 GPUに変えています。なので処理速度は参考値程度で。
使用した感想
準備がやや手間というか微妙に取っ付きづらい部分がありますが、実際にやってみると簡単なのでAIによる文字起こしを体験する良い機会かもしれません。
精度に関してはモデルを上位のものにすれば基本的には問題ないレベルかと思われます。
ただ、実務で利用するとなるとそれなりにスペックの高いマシンを用意するか、あるいはお金を払ってOpenAIのサーバーに肩代わりさせる(≒API)のが良いでしょう。