工場のフロアに立っているところを想像してみてください。機械が唸り、コンベアが唸り、フォークリフトがバックするときにビープ音が鳴り、通路の向こう側で誰かがラジオに向かって叫びます。では、AI メガネに「次のステップ」と伝えてみてください。 ネタバレ:これほど単純なことはめったにありません。
音声制御はハンズフリーを保つことを目的としていますが、実際の産業環境では、まったく制御できなくなることがよくあります。マイクは、自分の音以外のすべてのマシンノイズを拾ったり、ビープ音を「停止」と混同したりします。 私はこれが小さな迷惑ではないことを知るために、工場の現場で十分な時間を費やしてきました。 多くの従業員が 1 回のシフト後に音声コマンドを放棄し、画面をタップする作業に戻るのはこのためです。
しかし、ここに良いニュースがあります。 テクノロジーは大きな進歩を遂げています。 完璧ではありませんが、ようやく最も重要な場所で動作するのに十分な信頼性が得られました。本当の課題と、それをどのように解決したかを詳しく見てみましょう。
産業騒音はただうるさいだけではなく、構造化されています。 機械は特定の周波数でうなり音を立て、グラインダーは悲鳴を上げ、コンプレッサーはドスンと音を立てます。これらの音はスペクトログラム上で急増し、人間の音声を簡単にかき消してしまいます。消費者向けの音声アシスタント (携帯電話やスマート スピーカーに搭載されているもの) は、このために作られていません。プレス機の隣ではなく、静かな家庭でテストされます。
画期的な進歩: 最新の産業用 AI グラスは、 ビームフォーミング マイク アレイ (複数のマイクが連携して機能する) と ニューラル ノイズ抑制を使用しており、AI はユーザーの声と機械のラケットを区別することを学習します。単に周囲のノイズを低減するのではなく、口の方向に焦点を当て、その他すべてをフィルタリングします。
私たちが協力したあるメーカーは、 95 dB の環境で音声の精度をテストしました。これは、耳のすぐ横にある芝刈り機とほぼ同じ音量です。 優れたノイズ抑制により、精度は 92% 以上を維持しました。 それがなければ、40%を下回りました。
顔をそむけて誰かに話しかけてみたことはありますか?声がこもって聞こえます。マイクも同様です。騒々しいフロアで、作業員は常に頭を回転させて、機械をチェックしたり、工具をつかんだり、部品を検査したりしています。 メガネのマイクがまっすぐ前を向いているときにのみ機能する場合、 目をそらした瞬間に精度が急激に低下します。
画期的な点: 新しい産業用ガラスは 360 度のビームフォーミングを使用して おり、頭の位置を追跡し、その場でマイクの焦点を調整します。を使用する製品もあります。 骨伝導センサー(軍用ヘッドセットなど) 周囲の騒音を完全に無視して、頭蓋骨からの振動を拾う
私たちは建設現場で骨伝導機能を備えたペアをテストしました。 作業員が稼働中の発電機の隣に立ってコマンドをささやきましたが、メガネはそれを受け取りました。 それは魔法ではありません。単なる賢い物理学です。
同じことを話す人は二人としていません。なまり、方言、つぶやき、話すのが早すぎる、または遅すぎるなど、多国籍の乗組員、さまざまな地域からの交替勤務者、騒音を気にして叫ぶ人々など、産業チームはさらに多様です。消費者アシスタントは何百万ものユーザーから学びます。 工業用ガラスにはそのような贅沢はありません。すべての工場は独自の閉鎖された環境です。
画期的な点: オンデバイスのカスタマイズ可能な言語モデル。最新のメガネは、音声をクラウドに送信する (プライバシーに関する危険信号が発生する) 代わりに、 オンサイトでトレーニングできます。チームの音声 (さまざまなアクセント、一般的なコマンド) を数時間システムに入力すると、精度が大幅に向上します。
ある物流会社は、基本的なコマンド (「次へ」、「確認」、「停止」) を使用して倉庫スタッフを 20 分間記録しました。 トレーニング後、エラー率は 60% 減少しました。
正直に言うと、音声制御はすべての産業環境に対応できるわけではありません。
次の場合にうまく機能します。
周囲の騒音が 85 dB 未満である (うるさいが、耳がつんざくほどではない)
コマンドは 短く明確です (「次のステップ」、「図を表示」、「専門家に電話」)
作業者はメガネのマイクに向かっておおよその方向を向いて話すことができます
を行う時間があります 簡単なボイストレーニングセッション
次のような場合には依然として問題が発生します。
複数の人が近くで話しています (マイクでは常に彼らを区別できない)
特別な訓練を受けていないと、労働者に強いアクセントや言語障害がある
空間が反響する(金属製の大きな倉庫は声がうるさい)
継続的なディクテーションが必要です (完全な文章は短いコマンドよりも難しい)
利点は? 修理のガイド、ピックの確認、検査の記録など、ほとんどの産業用タスクに必要なのは短いコマンドだけです。そして、それらのタスクには、 今日のテクノロジーで十分です。
私たちが協力している倉庫オペレーターは、最初にジェスチャー制御を備えた AI メガネを導入しました。作業員はこめかみをタップしてピッキングを確認しました。 彼らはそれを嫌っていました。いつも両手がふさがっていて、手を伸ばすと速度が落ちてしまいます。
彼らは音声に切り替え、ピックするたびに「完了」と言います。静かな場所では精度は問題ありませんでしたが、トラックがノンストップでビープ音を鳴らしている積み込み場付近では最悪でした。 修正は? ビームフォーミング マイクと、従業員 1 人につき 10 分間の音声トレーニング セッション 。その後、ドック付近では精度が 72% から 94% に上昇しました。労働者は不平を言うのをやめた。あるピッカーは私たちにこう言いました。 「今はただ言って、動き続けています。もうそれについては考えていません。」
それが目標です。 音声がワークフローに溶け込む必要があります。テクノロジーについて考える必要はありません。必要なことを言うだけで、それが実現します。
音声制御がチームにとって重要な場合 (騒がしいフロアではおそらく重要です)、次の点を確認してください。
マイクの数: 3本以上を目指します。シングルマイクシステムでは対応できません。
ノイズ抑制: 基本的なエコー キャンセルだけでなく、AI ベースのニューラル フィルタリングを検討してください。
ビームフォーミング: 着用者が頭を向けたときでも、着用者の声に集中できますか?
オンデバイス処理: すべての音声をクラウドに送信するシステムは避けてください (遅延とプライバシーの問題)。
カスタム トレーニング: チーム固有のコマンドやアクセントを教えてもらえますか?
オフライン モード: Wi-Fi が切断された場合でも音声は機能しますか? (ネタバレ:そうなります。)
産業環境における音声制御はかつてはオチでした。メガネに話しかけると、機械の音やラジオの音、あるいは何も聞こえません。
それは変わりました。 ビームフォーミング、ニューラルノイズ抑制、骨伝導により、実際の作業に十分な音声の信頼性が得られます。完璧ではありませんが、 現在では何千人もの従業員がシフトごとにこれを使用しています。
どこの工場でも準備は整っているのでしょうか?いいえ。ただし、ほとんどのピッキング、検査、ガイド付き修理タスクでは、はい。 そしてそれは年々良くなっていきます。
SOTECH では、音声はタッチに代わるものではなく、追加されるものであることを学びました。労働者の中にはこめかみを軽くたたく人もいれば、ジェスチャーをする人もいるし、話す人もいます。 最高の工業用ガラスは 3 つすべてをサポートしており、作業者はその瞬間に何が機能するかを選択できます。
騒がしい工場現場では、 邪魔にならないインターフェースが最適だからです。
あなたの環境で音声をテストする準備はできていますか? 電話してください。最も騒がしい作業エリアにデモ ペアを送ります。そこでうまくいけば、どこでもうまくいきます。