techcommunity.microsoft.com
ChatGPTで有名なOpenAI社には、音声認識モデル「Whisper」があります。
Whisperで音声を認識するためには1センテンスくらいの長さの音声を渡す必要があるため、リアルタイム音声認識に利用する(少し聞いてから文字がでるみたいなUXは実現できるとしても)よりも、録音ファイルを渡して文字起こししてもらうような用途に向いています。
そんなWhisperですが、まもなくAzure OpenAI ServiceとAzure AI Speechにプレビュー提供されるようです。
Azure上で提供されるという事ですから、利用したとしても音声データなどは再利用されず、企業でも安心して利用できるようになりそうです。
Azure OpenAI Service
プレビュー提供が開始されるとAzure OpenAI Serviceに「OpenAI Whisper」 モデルが追加されます。
そのモデルを指定してREST APIで利用ができるようになります。
また、Azure OpenAI Studioでも試せるようになります。
Azure AI Speech
Azure AI Speechでは、Azure OpenAI Serviceをそのまま使った場合に比べていくつかの工夫が加味されたものが使えます。
- 非同期処理
- 話者紐付け(ダイアライゼーション)
- カスタマイズ(詳細はこれから調べます)
- 大きな録音ファイル(1GB)のサポート
まとめ
プレビュー利用開始が楽しみですね。