音と動きで、音声入力が強化される?
新たに明らかになったAppleの特許によると、専用の「リップリーディングプログラム」に取り組んでいることがわかりました。この特許申請は今年の1月に提出されたもので、「モーションデータ」が特定の単語やフレーズと一致するかどうかを判断するシステムについて記載されていると、Apple Insiderは伝えています。
特許の図では、Siriが簡単な音声コマンド(例:「Hey Siri」「スキップ」「次の曲」)を使用する方法について書かれていて、ユーザーの口の動きを解析するアルゴリズムによって、コマンドの向上ができると説明しています。
Appleは、Siriなどの音声認識システムには明らかな問題があると認知していて、例えば背景のノイズによって声がゆがむことがあったり、他のセンサーが常に人の声を感知していることでバッテリーと処理能力をたくさん消費してしまうなどです。
どうやって口の動きを見る?
この口の動きを読むシステムはカメラを使用するわけではなく、代わりに音声認識ソフトウェアがiPhone内のモーションセンサーを使用して口、首、または頭の動きを記録し、その動きが人間の音声と一致するかを判断するとのこと。またこのセンサーは、アクセラレータまたはジャイロスコープとして搭載されるようです。
これはiPhoneに限定されるものではなく、特許ではその種のモーションセンシング技術がAirPodsに統合される方法や、「スマートグラス」も言及されていて、データがiPhoneに送信されると書かれています。微妙な顔の筋肉の動き、振動、または頭の動きを検出できるようです。
そういえばAppleのスマートグラス案はなくなってしまいましたが、代わりにVision Proにがんばってもらおうっていう感じですね。
このシステムを実現するためには、これからAppleは人間が口の動きに関する多くのデータが必要となってきます。すでにSiriはiPhoneでユーザーの声を認識できますが、最近アクセシビリティ機能により、その声のキャプチャ機能が拡張されています。iOSのLive Speech機能では、ユーザーの音声プロファイルを記録し、その音声をテキストへの変換できるようにもなりました。
AIでは遅れをとっているApple
また特許では、サンプルデータセットでトレーニングされる必要のある「第一言語モデル」についても説明がされています。でもどのような機械学習モデルを必要とするかは不明ですが、莫大なデータセットから顔の動きを認識するためにAIをトレーニングさせるんでしょうね。
Appleはこの前のWWDCで「トランスフォーマーランゲージモデル」という言葉を一度だけ使っていて、iOS 17に導入される新しい自動補正機能について話しています。Appleは特許をたくさん申請しているので、そのすべてが製品になるわけではありません。でもこの特許はかなり具体性があるような感じしませんか?
AppleのサプライチェーンアナリストであるMing-Chi Kuo氏は、AppleのAIは競合他社に比べて著しく遅れているため、今年や来年にこういったディープラーニングモデルをハードウェア製品に入れてくるような雰囲気はなさそうだと述べています。
Appleが「Apple GPT」というコードネームの内部チャットボットを開発したという報道も出てきてはいるんですけどね…。何気にSiriにさらなるAI機能を追加しようとがんばっているかもしれません。特に、他の多くのアプリが既にApple製品向けの独自のAIベースの音声アシスタントを開発してますしね。
からの記事と詳細 ( アップル特許、Siriが口の動きを読めるようになる? - au Webポータル )
https://ift.tt/LYNeDhT
科学&テクノロジー
No comments:
Post a Comment