はつねの日記

Kinect, Windows 10 UWP, Windows Azure, IoT, 電子工作

Microsoft Cognitive Service - Bing Speech API関連まとめ

Cognitive

Microsoft Cognitive Service - Bing Speech APIを使う方法はいろいろサンプルあり充実しています。

しかし、Translator Speech APIのC#サンプルにはWebSocket使ったサンプルがあるのですが、Bing Speech APIにはサンプルがないという状況になっています。同じようにBing Speech APIにもWebSocketのC#サンプルがほしいです。

WebSocket-JavaScriptSDKを使う方法

[良いところ]

Bing Speech APIのWebSocket APIを使っているので、希望の処理ができる

[残念なところ]

Java Script (Type Script)なので、C#の知識だけではコードを理解できない

SpeechSDK(Microsoft ProjectOxford SpeechRecognition)を使う方法

docs.microsoft.com

[良いところ]

.NET / Android / iOSのSDKがある
マイクからの入力で音声に認識してくれる
内部的にWebSocketを使っている感じ

[残念なところ]

Androidはarmeabi用とx86用でarm64-v8a用とかarmeabi-v7a用がない
SpeechSDK自体のソースが公開されていないため、C#でWebSocket使うときのコードの参考にできない
.NET StandardやWindows Runtimeには対応していないのでHoloLensから使えない
Xamarinに対応していないのでBinding Libraryの作成が必要（作成済）

REST APIを使う方法

docs.microsoft.com

[良いところ]

REST APIなので環境や言語依存なくBing Speech APIの使い方サンプルとなる

[残念なところ]

音声発話が完了してから初めてAPIをたたくことができる
当然、WebSocketではない

ServiceLibrary(Microsoft.Bing.Speech)を使う方法

[良いところ]

WebSocketを使ったC#アプリがつくれるSDKを使っている

[残念なところ]

SDKのインターフェースが音声ファイルからのストリーム入力しかない
.NET用しかない

まとめ

ということで、現時点でC#を使ってWebSocketで動作させようとするとTypeScriptのサンプルコードを読み解きながら、WebSocketのSpeech Protocolドキュメントを読み解かないといけない。

https://docs.microsoft.com/en-us/azure/cognitive-services/Speech/api-reference-rest/websocketprotocol

しかしながら、Translator Speech APIに比べるとなんかプロトコル難しくないですか？

さらに、このドキュメントですが、本当にプロトコルのことしか書いていないため、System.Net.WebSocketsクラスを使ってC#でどう書けばいいかという点についての言及がないのです。

また、Connection Protocolでは丁寧にもhttps GETからWebSocketへのUpgradeというWebSocketのお約束レベルの記載まであり、そのあたりを知らないとSystem.Net.WebSocketsクラスでどうするの？といきなり躓いてしまう。

マイクロソフトに期待したいこと：

SpeechSDKをオープンソースにしてくれる。しかし、Githubのissue経由でリクエスト（私以外にも何人かが依頼）した結果がプロトコルドキュメントの公開だった
System.Net.WebSocketsクラスを使ったTranslator Speech APIサンプルのようなサンプルの公開
もちろん、プロトコルを整理してTranslator Speech APIくらい簡単にWebSokcetで使えるようにしてくれるのでもいい。