【AI活用事例】「AIが人間の顔に騙された」失敗から生まれた、3秒の声でメンタルを可視化するAI技術——株式会社サウンド&ヴィジョンテクノロジーズ

その他製造業

記事の要点(3行まとめ)

【事業概要】:株式会社サウンド&ヴィジョンテクノロジーズは、わずか3秒の「声帯の震え」から従業員のストレス状態を可視化するAIデバイス「Care Cube」を提供しています。

【トレンド】:メンタル起因のミスや事故が命に関わるリスクを抱える製造業・建設業・運輸業において、組織のメンタル不調の早期発見と対策へのニーズが急増しています。

【開発秘話】:初期の「表情解析」ではAIが人間の取り繕った表情に騙されるという失敗を経験し、無意識の生体反応である「声」の解析へ転換したことで、高精度かつ低負荷なシステムを実現しました。

音と映像で「人の変化」を捉えるテクノロジー

AI分野において世界競争が激化する中、日本の最大の強みは「現場力」にあります。しかし、現場を支える従業員の「心の健康」は目に見えず、変化を察知するのは困難です。

株式会社サウンド&ヴィジョンテクノロジーズは、サウンド(音声)とビジョン(画像)のAI解析技術を用いて、組織のメンタルヘルスや健康状態を可視化するソリューションを展開しています。同社が提供するデバイス「Care Cube」は、従業員が約3秒間発声するだけで、AIが声に含まれる感情を数値化し、ストレス量を算出する仕組みを持っています。

命に関わる現場だからこそ強い、製造業・建設業・運輸業の危機感

同社のサービスに対するニーズが特に強いのが、製造業、建設業、運輸業です。これらの業界は、一見ストレスが見えにくくても、従業員の不調が重大な事故や「命に関わるリスク」に直結する可能性があります。

小売やITといった業界に比べ、「頻繁には起きないが、一度起きた際のリスクが非常に大きい」という事業特性があるため、企業側が抱える危機感は非常に強く、スタッフ個人や組織の負荷を早期発見し改善することへの切実な需要があります。

話す内容は無関係。最小限のデータで解析する「Care Cube」の強み

「Care Cube」の最大の特徴は、声の大きさや話す内容、言語に依存せず、「声帯の震え」という不随意筋(無意識の筋肉)の振動から周波数の変動だけを分析する点にあります。

ストレス量は、声帯振動に含まれる感情の変動を求めます。これを、裏で保有するビッグデータと照合することで、AIが感情変動の違いからストレス状態を計算します。ただ、ストレスの量が多いこと自体は、心が不健康であることは意味しません。心の不健康とは、過大なストレスを処理できない状態を意味します。 ストレス量を時系列分析すると、健康な人はストレスを受けても自然回復力があるためストレスの数値が平均に戻るため、波を打つ形のグラフになります。しかし、メンタル不調(うつ傾向など)に陥ると、この平均に戻ろうとする力がなくなり、グラフの波形が直線(フラット)になる傾向があります。

また、一般的な他社製品が精度を上げるために大量のデータを取得・解析しようとするのに対し、同社は「必要最小限のデータ量(音声は3秒、画像は8秒)で答えを出す」というアプローチをとっています。これにより、計算負荷や通信コストを抑え安価に提供できるだけでなく、機密情報やプライバシーに踏み込む領域を最小限にできるというメリットを生み出しています。

「AIが人間に騙された」——失敗と試行錯誤のプロセス

現在でこそ音声解析を主力としていますが、開発の道のりは決して平坦ではありませんでした。同社の事業は、元々「顔認証技術を使ったDXサービス」からスタートしました。 顧客からの「毎日顔を合わせるのだから、ストレス状態も分からないのか?」という要望を受け、当初は**「表情」から感情を分析しようと試みました**。しかし、「人間は心の中と表情を変える能力があるため、AIがすぐ(人間の作った顔に)騙されてしまう」という壁にぶつかり、当時の技術では精度が出せず失敗に終わりました。

次に、心拍数などのバイタルデータを取得する「ウェアラブルデバイス」の活用も検討しましたが、数百人の従業員全員にデバイスを配布・導入するコストと負担が大きすぎるという課題に直面しました。こうした数々の試行錯誤と失敗の歴史を経て、手軽で、かつ無意識の反応を取り出せる「声(声帯の震え)」の解析へと行き着いたのです。

「発見」から「改善」へ。生成AIがもたらす新たな価値と葛藤

現在、同社は「ストレスを発見する」という段階から、その先の「行動を良い方向へ促す」フェーズへと事業をアップデートしようとしています。

ユーザーから「数字やグラフの意味が理解しにくい」という声を受けた同社は、認識系AIに生成AIを組み合わせ、検知した数値の意味や改善に向けたアドバイスを「テキストでフィードバックする機能」の実装を進めています。

しかし、ここでも生成AI特有の「チューニングの壁」と戦っています。例えば、メンタルが不調な人からのネガティブな発言に対し、AIが馬鹿正直に「それも一つの選択肢ですね」と返答してしまうような事態を防ぐための調整が必要です。一方で、制約を設けすぎると今度は「毎日同じ無難な回答」ばかりになり、ユーザーがAIへの信頼を失ってしまうというトレードオフのジレンマを抱えています。

人間の感情に寄り添う返答をAIにいかに持たせるか。サウンド&ヴィジョンテクノロジーズの「声なき声」を可視化し、現場の働きやすさを支える挑戦はこれからも続きます。


【編集者の後記】  AIの導入と聞くと、つい華々しい成功事例ばかりに目が行きがちですが、今回の取材で最も印象に残ったのは「人間が作った笑顔にAIが騙されてしまった」という赤裸々な失敗談でした。人間が持つ「取り繕う力」を前にAIが敗北し、そこからコントロール不可能な「声帯の震え」へと着眼点を変えたというプロセスに、現場の課題解決に向けた泥臭さとテクノロジーの面白さが詰まっていると感じました。また、データの取得量を「増やす」のではなく、あえて「最小限に絞る」ことでプライバシーやコストの課題をクリアした逆転の発想は、多くの製造現場におけるAI活用のヒントになるはずです。生成AIを活用した「改善」への次なるステップが、今後どのように日本の現場を支えていくのか、引き続き注目していきたいと思います。

関連記事

コラム記事一覧

TOP
CLOSE