新年明けましておめでとうございます。ネットワーク事業部の浅井です。
最近では、「声」による機械の操作が身近になってきていると思います。例えば、携帯電話のアシスタントに対して声で指示することで、WEB検索したり、電話をかけたりもできます。また、家電でも声による操作が可能なものも増えてきていると思います。
では、パソコンではどうなのでしょうか。
ということで、今回はWindows11に標準搭載されている音声入力機能(ディクテーション)を中心に紹介し、他にも最近実装された字幕機能(ライブキャプション)、音声操作機能(ボイスアクセス)についても触れてきたいと思います。
音声入力機能について
まずは音声入力機能(ディクテーション)について紹介していきます。
音声入力機能はその名の通り、話しかけた内容をテキストとしてパソコンに入力することができる機能です。
この機能自体はWindows10の頃から存在はしていましたが、Windows10では英語のみの対応(22H2時点)となっており、日本語での入力が行えませんでした。その機能がWindows11で日本語対応しました。
普段からパソコンを利用していて、素早くタイピングができる方であればもちろんそちらのほうが早いと思いますが、あまりタイピングが得意でないという方にとっては、こちらの機能は非常に便利な機能ではないかと思います。
起動方法について
音声入力機能は、キーボードの「Windowsキー」+「Hキー」を押下することで起動することができます。
この機能を利用する場合は、文字入力ができる状態である必要があります。そのため、文字入力ができない画面で起動した場合は警告が表示されます。
文字入力が可能な状況で「Windowsキー」+「Hキー」を押下すると、音声入力機能が起動します。「聞き取り中…」と表示され、中央のマークが青く表示されていれば音声による文字入力が行える状態です。
マイクに向かって話しかけることで文字の入力、変換まで自動で行ってくれます。
設定項目について
音声入力機能にはいくつか設定項目があります。
- 音声入力起動ツール
- 句読点の自動化
- 規定のマイクの選択
「音声入力起動ツール」は、素早く音声入力機能を利用するための項目です。この項目のチェックを入れることでテキストボックスを選択した際に音声入力が行えるようになります。ただ、ショートカットキーでも十分簡単に起動できる上、邪魔になる場合もあるため個人的には不要な機能かと思います。
「句読点の自動化」は、文字入力を行う際に、句点(。)と読点(、)を自動で入力してくれる機能です。この機能を利用すると、文章の切れ間がわかりやすくなるため、あとから文章を整形したり見直したりする場合には便利な機能かと思います。ただ、呼吸をおいたタイミングでも句点を打たれてしまったりもしますので、実際に利用してどちらがよいか判断すると良いのではないでしょうか。
「規定のマイクの選択」は、音声入力機能で利用するデバイスを選択する項目です。内蔵のマイクがあるパソコンの場合は、項目が複数表示される場合があるため、利用したいマイクを選択するように注意しましょう。「ステレオミキサー」という項目があると思いますが、こちらを選択するとパソコン内で発生した音声を読み取り、音声入力機能で文字変換することができます。
音声入力コマンド・句読点コマンドについて
文字入力をするにあたり、入力した内容を削除したい、改行をしたい、といった場面は多くあると思います。その場合の補助として、「音声入力コマンド」「句読点コマンド」というものが存在します。
音声入力コマンド
音声入力コマンドでは下記の表の内容を話すことで、音声入力を停止したり、文字の削除を行うことができます。
アプリケーションの動作 |
話す言葉 |
音声入力を停止または一時停止する |
聞き取りを停止 音声入力を一時停止 音声入力を停止 ディクテーションを一時停止 ディクテーションを停止 音声モードを停止 音声モードを一時停止 |
最後に話した単語または語句を削除する |
それを削除 それを消去 それを取り消す |
最後に話した単語または語句を選択する |
それを選択 |
句読点コマンド
改行や記号といった文章を話す上では入力できない内容を入力するために、句読点コマンドというものが存在します。
例えば、「新年明けましておめでとうございます。今年もよろしくお願いいたします。」という文章を音声で入力する際に、そのまま文章を読み上げると1行で入力されます。では、1つ目の文と2つ目の文を分けたい場合、どうすればよいのでしょうか。
その場合、「改行」と単語を間に挟んで喋ることで改行された文章が入力されます。具体的には「新年あけましておめでとうございます。改行 今年もよろしくお願いいたします。」と話すことで2段の文章を作成することができます。
他にも多くの音声入力コマンドが存在しますが、全てはここで紹介しきれないため、利用機会の多そうなコマンドをいくつかピックアップします。
すべて確認したい場合はこちらのページ(タイピングではなく音声で PC に入力するために音声入力を使用する)でご確認ください。
挿入する文字 |
話す言葉 |
改行 |
次の行 新しい段落 改行 かいぎょう |
( |
かっこ 左かっこ かっこ開く |
) |
かっことじ 右かっこ かっこ閉じる |
「 |
左かぎかっこ かぎかっこ開く |
」 |
右かぎかっこ かぎかっこ閉じる |
実際に使用した感想
今回の記事を作成するに当たり、音声入力機能を利用して文字入力を行ってみました。
まず第一に、想像以上にきちんと音声を認識してくれると感じました。ところどころ、誤った入力をしてしまうこともありましたが、ほぼ正しい入力をしてくれました。今まで音声認識というものを利用したことがなかったということもありますが、音声認識の精度には驚かされました。キーボードを使わずに話した内容が、入力、変換されていく様子はある種気持ちよさもありました。
ただ、不便な点としては、やはり入力のテンポが悪くなってしまうという点が気になりました。
改行を行いたい場合に、毎回改行と話さなくてはならないという部分であったり、アルファベットや数字、記号の認識がうまくいかなかったりと、すべて音声入力のみで入力を行うというのは相当の練習が必要であるという感想です。
ですが、一度入力を音声のみで行い、あとからキーボードで整形するといった方法での文章作成は、今後活用してみようと思うことができました。
また、他の活用方法として、インタビューや打ち合わせの録音の文字起こしや、コロナ禍で増えたWEBミーティングの議事録作成にも役立てることができるのではないかと感じました。WEBミーティングの場合は、常にテキスト機能を持つアプリケーションをアクティブにしておく必要があったり、議事録用のアカウントを通話に参加させたりする必要はありそうですが、十分利用できそうです。
字幕機能について
字幕機能(ライブキャプション)機能は、Windows11のバージョン22H2から利用が可能となりました。
この機能を用いれば、パソコン上で流れている動画で話されている内容をリアルタイムで文字として読むことができるようになります。ただ、問題点として、2023年1月時点では英語(アメリカ)のみの対応となっており、日本語に対応していません。
ですが、今後に期待できる機能として今回紹介したいと思います。
起動方法、初期設定について
起動方法は、「すべてのアプリ」>「アクセシビリティ」>「ライブキャプション」を選択する方法と、ショートカットキー「Windowsキー」+「Ctrlキー」+「Lキー」から起動する方法があります。
初めて起動した場合は、初期設定としてダウンロードが必要となります。
画面上のダウンロードボタンを押下し、少し待つと利用の準備が整います。
基本的に設定を変更せずこのまま利用を開始することができますが、初期状態は画面上に配置されます。こちらは設定から、「上」「下」「フロート表示」に変更することができます。フロート表示は、ウインドウとして任意の位置、サイズで画面上に配置することができる表示方法のことです。
実際に使用した感想
今回はサンプルとしてアメリカ議会のやり取りの動画を利用してみました。
必要な作業としては、ただ音声を再生するだけです。
(引用:CNN Youtubeチャンネル)
こちらも音声入力同様にかなりの精度で字幕表示され、かなり驚きました。私自身が英語ができるわけではないため、翻訳を利用しての確認にはなってしまいましたが、内容に不自然な部分が出ることなく字幕表示できていました。Youtube自体にも字幕機能はありますが、こちらの機能であればすぐ文字が消えてしまう心配もなく、より多くの文字を表示することができます。また、もちろん別の動画サイトやアプリケーション、録音データからでも利用することができます。
他にも便利だと感じた部分として、パソコン内の音をライブキャプションが認識できてさえいれば字幕を表示してくれるため、パソコンから出る音量をミュートにしていたとしても、動画の音量さえミュートになっていなければ字幕が表示されるという点です。この機能を用いれば、周囲の音がうるさい現場であっても、相手側の話した内容が文字で表示され、素早く相手の意志を読み取ることができるようになります。
ただ、不便であると感じた部分は、表示された内容をテキストで出力する方法が無いことです。文字のドラッグもできないため、こちらの機能を利用して議事録を作るといった、文字起こしに利用することは現時点では難しいと思われます。ただ、今後対応する可能性もあるため、アップデートに期待をしましょう。
現状でも英語の勉強に使えたりもしそうですが、もし、日本語対応となった場合には是非使ってみたいと思います。
音声操作機能について
音声操作機能(ボイスアクセス)も、字幕機能と同様に、Windows11のバージョン22H2から利用が可能となった機能です。
こちらの機能を簡単に説明すると、音声によるパソコン操作を可能とする機能です。
ただ、こちらの機能も現在は日本語に対応しておらず、Windows11の表示言語が日本語の場合は有効化もできない状態です。ですが、機能自体は既に搭載されており、下記の手順で該当機能の画面までは遷移することができます。
「設定」>「アクセシビリティ」>「音声認識」
こちらの機能を利用すれば、手の離せないような状況でもパソコンの操作を行えたりといった、新しい利用方法が見つかるかもしれません。直感的な操作がよりしやすくなるという点では非常に期待が持てる機能ではないでしょうか。
まとめ
今回は「音声」にフォーカスして標準のWindows11で利用できる、または、今後できるようになるであろう機能について紹介をいたしました。私自身今まで音声認識というコンテンツにあまり触れてこなかったため、音声認識の精度という点で、とても驚かされました。もし、紹介した機能をご存じなかった方がいましたら、この記事をきっかけにこんな機能があったんだ、使ってみよう、と思っていただけたら幸いです。また、今回紹介した機能について、日本語版が実装された場合には、改めてご紹介をできればと考えています。
今もWindows10を利用しているというユーザは多くいらっしゃると思いますが、Windows11でも多くの便利な機能が追加されてきています。こういった機能に興味を持って、Windows11に乗り換えるきっかけにしていただけたらとも考えています。
ネディアでは、Windows10のパソコンをWindows11に切り替えたいといったご相談や、パソコンを新しいものにリプレイスしたいといったご相談もいつでも受け付けています。お気軽にご相談いただけますと幸いです。