من السهل نسبيا على الإنسان تمييز شخص من نبرة صوته إن تحدث وسط حشد من الناس، ولكن على العكس، الأمر قد يكون معقد بالنسبة الكمبيوتر. جوجل مع ذلك استطاعت تحقيق ذلك مع مساعدها في الصوتي.
الحل الذي تم إيجاده في النهاية بسيط للغاية. في البداية، يعزل النظام الأشخاص الذين يتحدثون بمساعدة حركات الوجه. بعد ذلك، ستنشئ الخوارزمية مسارا صوتيا محددا لكل فرد يتم تحديده بواسطة الذكاء الاصطناعي. وبهذه الطريقة، يتمكن من استخراج صوت واحد لشخصين يتحدثان في نفس الوقت. ستعمل هذه الطريقة أيضا إذا كان الشخص يخفي وجهه جزئيا.
في المستقبل، قد يتم دمج هذا التقدم التكنولوجي في تطبيقات جوجل مثل Hangouts وDuo. سيسمح ذلك بالاستماع بشكل أكثر وضوحا وسط الصخب ويمكن أيضا من تقديم جودة صوتية أفضل عند التسجيل.