はつねの日記

Kinect, Windows 10 UWP, Windows Azure, IoT, 電子工作

Microsoft Group TranscribeがiOSアプリとして登場

www.microsoft.com
Microsoft Translatorアプリでも実現でしていましたが、よりリアルタイム性が高い感じで翻訳ができるMicrosoft Group Transcribeアプリが登場してきました。まずはiOSアプリから。
バイスのマイクを使ってその場で音声を取得するので「スマホは発話者のそばで!」みたいな使い方Tipsが書かれていますね。
回線経由の音声じゃない分、音声認識率はよさそうですね。

どうやって会議室をつくるの?

同じ部屋の中にいる人通しではアプリを立ち上げるとbluetoothでみつけてワンタップで参加できます。
あとは5桁のコード、もしくは、QRコードでも同じ会議室にさんかできるので、遠く離れた人同士は5桁のコードで参加ですね。

どこが便利なの?

5桁のコードが判ってしまうと世界中の誰でも参加できるし、近くにいる人とはbluetoothでサクッと参加できますね。
とにかく不特定多数の人との会話の文字起こしには便利ですね。
一方、企業内の会話とかに外に漏れたくない場合なんかはちょっとダメそうですね。適材適所というところでしょうか。

動作ってどんな感じ?

日本語端末で話をすると、自分の発話の日本語のみが表示されます

英語端末に届くと日本語がでて、その下に英語で翻訳されます。

英語端末で英語を話すと、自分の発話の英語のみが表示されます。

日本語端末に届くと英語が出て、その下に日本語で翻訳されます。

同時に話すとどうなるの?

同時に話すと誰か1人の端末の音声認識だけがONになるようです。
つまり複数人が同時にどんどん喋ったとしても、少しでも早く話し始めた人以外は認識がONにならないようです。
でも、ちょっとでも息継ぎで間を開けると認識していた端末以外の音声をその瞬間だけ取得するような動きです。
「ちょっとまって」とか入れずらいので、話す側が少し工夫したりするといいんじゃないでしょうか。

会議が終わった後のデータは?

会議中の発言(つまり表示されていた状態)は、いつでも履歴から参照できます。
そこから共有もできますね。
端末ごとに履歴の内容が違う(言語ごとに、他国語から自国語への翻訳表示部分が違う)ので端末に保存されているのかな。

使ってみてどうだった?

話し始めて、最初の文字がでてくるまで若干待たされる感じはしますが、そこからは比較的スムーズです。
類似の無料アプリがいろいろありましたが、そのあたりを使っている場合は、これで充分かな。

協力しよう

発話した内容は「会議の録音は、複数の話者の会話を理解して、会議中に同じ言語を話す全員のMicrosoft オンライン音声認識技術の品質向上に役立つ可能性があります。」
ということで会議の録音を投稿する機能があります。
自国語の音声認識率をあげたいときは、社外秘の会話ではないのであれば、投稿するのもいいかもしれないですね。