米Googleは5月10日(現地時間)、年次開発者会議「Google I/O」をハイブリッドで開催した。約2時間20分の基調講演で発表されたことを時系列で簡単にまとめる。なお、開発者向け基調講演は別途行われており、技術的な詳細はそちらで発表された。
ハードウェアも発表されたが、全体的にAI中心の講演となった。オープニングに流れた動画もGoogleが数年前からAIに取り組んできたことを示すもので、「われわれは(AIに)大胆な野心を持っているが、アプローチには常に責任がある」とし、そのアプローチの方針は「Make AI helpful for everyone(AIを誰にとっても役立つものに」だという。
最初に登壇したスンダー・ピチャイCEOは「みなさんもご存じの通り、今年はAIが非常に忙しい年になっており、私達にも語ることがたくさんあります」と口火を切った。
「生成AIにより、Google検索を含むGoogle製品はラディカルに便利になります」とし、例としてGmail、マップ、フォトの生成AI機能を紹介した。
GmailのBard機能「Help me write」
GmailのAI機能の1つは「Help me write」と呼ばれる、米OpenAIのChatGPTのように、自然言語でプロンプトを与えると、それなりなメール案を提示すというものだ。
ピチャイ氏は、欠航を知らせる航空会社からのメールに払い戻しを要請する返信の例を示した。メール作成画面のツールバーに新たに追加されるBardのアイコンをクリックし、「フルリファンドを要請する」と入力して[Create]ボタンをクリックすると、該当する便名や日付を含む、礼儀正しいリクエストメールが表示される。
提示された文面は[Refine]ボタンでよりフォーマルにしたり、詳しくしたり、簡略化したりできる。
この機能は「WorkSpaceのアップデートで利用可能になる」とピチャイ氏は語ったが、そのアップデートがいつかは具体的に言わなかった。
Googleマップではストビューのイマーシブビュー化
次はGoogleマップでのAI機能の紹介だ。昨年のGoogle I/Oで発表した「AIと数十億の高解像度ストリートビュー、衛星画像、航空写真を組み合わせた体験」の「イマーシブビュー」を発展させた新機能「Immersive View for routes」だ。目的地までのストリートビューを、このイマーシブビューの中を移動して確認できるようになる。
目的地に行く日時の天気とトラフィックの予想を映像で表示することも可能だ。
この新機能は、東京、ニューヨーク、ロンドンなど世界15都市で年内に利用可能になる見込みだ。
Googleフォトの「Magic Editor」
Googleフォトは既に顔での検索や「消しゴムマジック」などAI機能が満載だが、そこに「Magic Editor」が加わる。メインの被写体の位置を移動させる機能だ。例えば背景の滝を手のひらで受けている写真を撮影したつもりが、微妙にずれてしまったら、Magic Editorで被写体の位置をずらせる。
空が曇っているのを明るくする例も紹介した。
Magic Editorは年内登場の予定。
ピチャイ氏はミッションが「Making AI helpful for everyone」であることをここでも繰り返し、責任を持って構築すると約束した。
新LLM「PaLM 2」の紹介
こうしたAI機能の背景にあるLLMとして「PaLM 2」を紹介した。昨年のI/Oで発表した「PaLM」の次世代LLMだ。Gmailなどを含む25製品で採用しているという。
「Gecko」「Otter」「Bison」「Unicorn」の4つのサイズのモデルを提供する(具体的なパラメータ数は提示されなかった)。
最小のGecko(ヤモリ)はモバイル端末で動作し、オフラインでも利用可能にするために用意したものだ。
100以上の言語(プログラミングではなく日本語などの言語)にわたって多言語テキストについてより高度にトレーニングし、多言語性が向上したという。これにより微妙なニュアンスのテキストも理解し、翻訳能力が大幅に向上したとしている。
また、Python、JavaScript、Prolog、Fortran、Verilogなどの大量のソースコードデータセットで事前トレーニング済みなので、コード生成やデバッグも可能だ。
PaLM 2は同日からプレビュー版を提供する。
マルチモーダルな「Gemini」
ピチャイ氏は次に、Google Deepmindの立ち上げについて語り、“次世代基盤モデル”の「Gemini」について触れた。Geminiは「マルチモーダルでツールとAPIの効率的な統合のためにゼロから構築したモデル」という。おそらくPaLM 2の次の世代のLLMということなのだろう。
ここでもピチャイ氏はAIの安全性について語り、GoogleのAIで生成するコンテンツにはそれと分かるようにウォーターマーク(電子透かし)が付くと説明した。
また、コンテンツにメタデータとして追加のコンテキストを関連づけられるようにし、AIで生成された画像にそのメタデータが含まれるようにする。
Bardが日本語対応に Workspaceで利用可能に
ピチャイ氏の次に登壇したのは、GoogleアシスタントとBard担当ジェネラルマネジャーのシシー・シャオ氏。Bardについて説明した。
3月にリリースした会話型AI「Bard」もPaLM 2ベースになり、20以上のプログラミング機能をサポートし、推論や数学関連のプロンプトへの対応が「より賢く」なった。
また、生成したコンテンツをGmailやGoogleドキュメントにエクスポートできるようになった。
さらに、Gogole Workspaceでも使えるようになる(既に一部のテスターがGmailとドキュメントでテスト中)。Bard採用の「Duet AI」は、ピチャイ氏が紹介したGmailでの「Help me write」の他、スライドやMeetでテキストプロンプトから画像を生成したり、スプレッドシートでプランを作成したりできる。
小さな改善だが会場から歓声が上がったのは、Bardがダークモードに対応したという発表だった。
また、BardはGoogleの検索や「Lens」など他のツールにも統合され、さらにAdobe FireflyなどサードパーティアプリでもBardのプロンプトから画像生成できるようになる。
Bardは米国では同時からウェイティングなしに利用可能になり、日本語と韓国語にも対応した。今後40カ国語以上に対応していく計画だ。
この後、Workspace担当副社長のアパルマ・パップ氏がドキュメントやシートでのBardの活用方法のデモを行った。
AIで変わるGoogle検索
次に登壇したエンジニアリング担当副社長のキャシー・エドワーズ氏は、Google検索のAI機能を紹介した。「私達が何年も前からAIに大きく投資し始めたのは、検索をより良くする機会があると考えたからだ」と語った。
エドワーズ氏は、例として「3歳未満の子供と犬がいる家族の旅行先としてはブライスキャニオンとアーチのどちらがいいですか?」という自然言語のクエリーを検索枠に入力した。検索結果は従来のような関連WebページのURLが並ぶのではなく、米Microsoftの新しいBingの回答のように、文章の説明が表示される。
回答の上部には「生成AIは試験段階です」と表示される。新しいBingのように文章内にソースのリンクが表示されることはないが、文章による回答の下には従来のURLが並ぶ。また、「ブライスキャニオンには何日くらい滞在するべきか?」など、さらなる質問の候補が表示されるところは新しいBingに似ている。
また、自転車を買うための検索例では、従来どおりの広告枠の表示が健在であることが確認できた。Googleショッピンググラフでは「毎時18億件のライブ更新」が行われており、検索結果には最新の価格の製品が表示される。
少なくともデモのGoogle検索の画面には広告は表示されなかった。また、デスクトップではスクロールしないと従来のリンクが表示されないようだ。Googleの主な収入源である広告が今後どのように扱われるのかについての説明はなかった。
生成AI搭載Google検索は、数週間中に米国の英語版のみGoogle Labsで提供を開始する。こちらもウェイティングリストに登録する必要がある。
Google CloudとVertex AI
次に登壇したのはGoogle Cloudのトーマス・クリアンCEO。3月にPaLMとともに紹介した、機械学習モデルやAIアプリを構築・デプロイするためのAI開発プラットフォーム「Vertex AI」などをあらためて紹介し、Wendy'sなど、既にGoogle CloudのAIを活用している企業の幹部が語る動画を見せた。
詳細は公式ブログを参照されたい。
Project Tailwind
次はプロダクトマネジメントのシニアディレクター、ジョシュ・ウッドワード氏による開発者向けPaLM 2の紹介。PaLM APIや「Project Tailwind」について解説した。
Project Tailwindは、ドキュメントから情報を引き出す“AIファーストなノート”という。
画像を見るだけでは使い方はよく分からないが、こちらもLabでウェイティングリストに登録できるのは今の段階では米国の英語版のみだ。
責任あるAI構築について再び
次に登壇したのは、技術・社会担当上級副社長のジェームズ・マニカ氏。ピチャイ氏と同様に責任ある開発が重要だと強調した。
同氏も電子透かしについて説明し、さらに現在テスト中の「Universal Translator」の悪用回避対策についても語った。
Universal Translatorは、例えば英語で話している人の動画の声をスペイン語に変えるAIによる吹き替えツールだ。デモ動画では、オリジナルの声に近い音声で口の動きもかなり合った変換が行われている。
当然こうしたツールはディープフェイクに悪用されそうだ。マニカ氏は、悪用を回避するために、認可したパートナーのみが利用できるようにしていると語った。また、このツールでも透かしのような仕組みを統合するとした。
Androidは14の紹介ではなく、やはりAI関連の機能
次はAndroidにおけるAI。解説はAndroidおよびGoogle Play担当副社長のサミール・サマト氏。例年のGoogle I/Oでは次期Androidの新機能の紹介が行われてきたが、今回はGoogle I/O全体のテーマになっているAIのAndroidでの取り組みを紹介するという形になった印象だ。
AI関連以外では、「WhatsApp」アプリがWear OSに対応することや、先日発表したAirTag検出機能が今夏登場することなどについて語った。
壁紙に絵文字?
陽気なデモで知られるAndroidエンジニアリング担当副社長、デイヴ・バークがAndroidのAI関連新機能を紹介した。
デスクトップと同じMagic ComposeやMaterial Youの改善に加え、壁紙で絵文字をあしらう機能もAI機能として紹介。壁紙編集画面で表示したい絵文字(うんちもある)を複数選び、並べ方や色を選択してデザインできる。壁紙の絵文字をつつくと反応する。
この他、シネマティックモードの画像を壁紙にできる機能が6月に、プロンプトで生成した画像を壁紙にできる機能が今秋に登場することも予告した。
ようやくハードウェアの発表
ここでようやくハードウェア部門トップのリック・オステルロー氏が登壇。Google自身がリークしていた折りたたみ式の「Pixel Fold」と「Pixel 7a」、うわさの「Pixel Tablet」を紹介した。
Pixel Foldについてはこちらの記事を、Pixel Tabletはこちらを、Pixel 7aはこちらを参照されたい。
Pixel Foldについてはバーク氏が再登壇し、かなり長いデモを披露した。
Google I/Oの基調講演の録画は既に公開されている。
関連記事
関連リンク
からの記事と詳細 ( Google I/O 2023基調講演まとめ:Google I/O 2023 - ITmedia NEWS )
https://ift.tt/wlYrnLk
科学&テクノロジー
No comments:
Post a Comment