じっぱひとからげ

十把一絡げになんでもかんでもつづる。

Google音声入力で散歩しながらブログを書く方法

OK Google!

最近では広告もいろいろなところで目にするようになり、音声入力は実用レベルになったというところから、一般化したと言って良いと思う。もともと「入力」には関心があり、脳内で考えていることがそのまま文字に起こせたらなあといつも思っていた。さすがに脳内から直接アウトプットはできないので、小さなBluetoothキーボードでも持ち歩いて、いつでもモノ書きができるようにしておこうなどと考えてBluetoothキーボードを選んでいるところでもあった。

そこで、ふとひらめいた。Google音声入力で文字を起こせば良いのでは?

Google音声入力でこの記事の元ネタを作ったときの話

Androidには、Googleの音声入力が標準で備わっているため、特に何を準備することもなくGoogle音声入力が利用できる。OK Google! と検索のときにだけ利用することだけがクローズアップされているが、音声を文字に起こすということにも当然利用できるのである。

これを応用すれば、歩きながら考えていることをつぶやくだけで文字に起こすことができる。散歩中の気づきや、ひらめいたアイディアを書き留めておくにはとても都合が良い。まわりに人がいるとやりにくいので、マイク付きのBluetoothイヤホンに小声で話しかけるのがおすすめだ。

以下は、検証のために、ここまでの文章をGoogle音声入力で出力した結果である。認識エラーは赤字にした。

最近では広告も色々なところで目にするようになり 音声入力は実用レベルになったというところから 一般化したと言っていいと思う 元々入力には関心があり 脳内で考えていることをそのまま文字に起こせたらなあといつも思っていた さすがに脳内から直接アウトプットは出来ないので 小さな bluetooth キーボードでも持ち歩いて いつでも物鍵(モノ書き)ができるようにしておこうなどと考えて bluetooth キーボードを選んでいるところでもあった そこでふとひらめいた google 音声入力で文字を起こせば良いのでは google 音声入力で脳内からダイレクトにアウトプット android には google 音声入力が標準で備わっているため 特に何を準備することもなく google 音声入力が利用できる ok google と検索の時にだけ利用することだけがクローズアップされているか(が) 音声を文字に起こすということにも当然利用できるのである これを応用すれば歩きながら考えていることを呟くだけで文字に起こすことができる 散歩中の気づきや ヒラメいた airi 青(ひらめいたアイディアを)書き留めておくにはとても都合が良い 井川(以下は)ここまでの文章を google 音声入力で出力した結果だ認識エラーは赤字にした

見て取れるように、Google音声入力は「改行」「句読点」がつけられない。エスケープシーケンスの代わりとなるような特定のキーワードを発音して入力するということも用意されていない(と思う)。半角スペースは、一呼吸置いたときの変換の単位、または、Googleが自動的に判定した区切りである。話す間が少しあくとGoogle音声入力側が区切りと判断してひとまとまりの変換を行う。Google音声入力が素晴らしいのは、連続した入力が可能であることだ。変換と変換の間に「これからしゃべります」を意味するタップの必要がない。一番最初の開始のタップをしたあとは、ただただそのまま話しかけ続ければ良いのである。

しかし、当然のことながら認識エラーもある。エラーが発生するパターンはこのようなものがある。

(A)言葉が一般的ではない、または、口語である

○ぷらっと散歩
✕プラット散歩

(B)単語の文字数が短い

○字になる
✕気になる

(C)同音異義語

○記事
✕生地

○変換
✕返還

ただ私はこの認識エラーのうち(A)については、精度はこの程度なのかと悲観するのではなく、これは一般的な言葉ではないので他の言い回しに変えようというポジティブな利用の仕方があると思っている。ある意味、Google音声入力がレビュアーになるという良い使い方だ。

また、Google音声入力に話しかけるときにある程度まとまったセンテンスで話すことで、(B),(C)の認識エラーを減らすことができる。「記事」を「生地」と誤ったケースでいえば、

「きじをかく」→「記事を書く」
「きじをつくる」→「生地を作る」

というように、動詞とくっつけて話しかけると、あとにつく動詞によって文脈を判断して変換してくれるので、いずれかの「より一般的な変換」に寄せられるのだと想像している。ただし、利用していく中で、認識エラーが別の認識エラーを生むケースがあることがわかっている。

「あっとうてきなはやさできじをかくことができる」
→「圧倒的な速さで生地を買うことができる」

上の文章を声に出して読んでみて欲しい。「書くことができる」の「く」の発音を飛ばしていることに気づくはずだ。「書っことができる」と発音してしまっていると思う。「書く」が「買う」に誤認されたとたん、前の単語の「きじ」は「記事を買う」よりも「生地を買う」のほうが一般的であると判断されてしまう。普段まったく意識していなかったが、日本語に限らず他の言語でも、ある条件下では発音されなくなる文字があるということを知った。どうやらアナウンサーやナレーターといった類のお仕事の中ではお作法として理解して使われている技術らしい*1。この発音するしないの条件はルールに則っているようなので、今はただ実装されていないだけで、このルールを取り込めばGoogle音声入力は自ずと精度もあがるだろう。

脳内からダイレクトに文字としてアウトプットできる

圧倒的な早さで記事を書くことができるだけでなく、とにかく思いつくままに脳内から文字にダイレクトにアウトプットできることに価値があると思っている。Google音声入力で入力する場合と、キーボードで入力する場合とそれぞれに良し悪しがあると思うので、使い分けについて考えたい。

Google音声入力
・アイディアレベルで記録
・脳内を直接出力、推敲なし
・手間をかけない、時間をかけない、場所を選ばない

■キーボード
・文脈、粒度を意識した全体の構成
・机とディスプレイでじっくり校正

上記の通り、Google音声入力は句読点や記号も使えず、改行もできないので、体系的な構成を考えるのには不向きである。Google音声入力ではとにかく手軽に、忘れないうちに文字にしておきたいことを手っ取り早く記録しておくということに長けている。もちろん、これまでも単純にメモとして音声を録音することができたかもしれないが、音声メモの欠点は確認にx1.0倍の時間がかかることである。仮に倍速のx2.0で再生して内容が認識できたとしても、検索ができないというのは圧倒的に不利である。

適当にメモレベルでしゃべって、あとからキーボードを使って構成するというスタイルがもっとも生産性が高いと感じている。

場所を選ばずどこでも執筆できる

やはり、キーボードを使わなければならない、タップしなければならないとなると、ある程度ディスプレイやスマホの画面に集中しなければならないし、場所も限られてしまう。

私はいつも風呂にジップロックの袋に入れたスマートフォンを持ち込んで、音楽やラジオを聞いたり、AndroidのTalkBackにKindleの本を読ませたりしている*2Google音声入力が執筆に使えるとわかってからは、風呂さえもモノ書きの場に変えることができるようになった。

とにかく脳内にあることをいったん文字に起こすという作業は、今まで使ったことのないような脳の使い方をするので慣れるのには少し時間がかかる。基本的には、スマホGoogle音声を開始をタップしたら、独り言をぼそぼそとつぶやくだけである。

初めのうちは、一人なのになぜか照れてうまくしゃべることができない。Androidにはどう認識されているのかな?こういう言い方をしたほうが認識されやすいかな?とインタフェースのことが気になってしまう。しかし、慣れによって照れがなくなると、今までこういうことができたらいいのに、と思っていた「脳内からダイレクトにアウトプットする」という究極の形であるトランス状態に入ることができる。

慣れればGoogle音声入力によって、あなたの執筆活動の生産性を飛躍的に向上するはず。

Google音声入力の使い方

利用している標準キーボードにもよるが、ここでは「Google 日本語入力」を標準キーボードとして利用している場合の例を書いておく。もちろんGoogle日本語入力を使っていなくても、お使いの標準キーボードにGoogle音声入力を開始するボタンがあるはずなので、それを探してみて欲しい。といっても、使い方はいたって簡単。

画面上のマイクのようなアイコンをタップすると、Google音声入力が始まる。

f:id:jippahitokarage:20170513095359j:plain

あとは話しかけるだけ。間をあける区切りと判定されて変換される。間が長すぎると「もうしゃべっていない」と判定されて音声入力が終わってしまうので、再開する場合はもう一度タップする。
f:id:jippahitokarage:20170513095357j:plain