Google розкрила подробиці роботи будок телеприсутності Starline

У новій статті розробники з Google детально описали технологію телеприсутності, яку представили на минулій конференції I/O. Проєкт «Starline» – це, по суті, тривимірна будка для відеозв’язку, яка повинна замінити звичайні, нудні двовимірні відеочати та створити відчуття, ніби ти й справді знаходишся навпроти співрозмовника. З’ясувалося, зокрема, що кольорове зображення пишеться з чотирьох точок, створюється три карти глибини та сім звукових доріжок.

Звучить просто, але при спробі реалізувати такий своєчасний проєкт інженери Google зіткнулися з безліччю труднощів. Виявляється, змусити мозок повірити в те, що співрозмовник сидить на відстані витягнутої руки, а не за сотні кілометрів, досить складно. Очевидно, зображення має мати високу роздільну здатність і не мати відволікаючих артефактів. При цьому воно має виглядати реалістично незалежно від положення користувача, який сидить в будці. Інша проблема – звук. Аудіосистеми повинні передавати звучання голосу співрозмовника так, ніби воно виходить з його рота. Плюс є ще питання зорового контакту, – розповідає The Verge.

Тим не менш, розробники сподіваються створити технологію телеприсутності, яка створить досвід віртуальної реальності без громіздких гарнітур та датчиків. У статті докладно описується, скільки апаратури потрібно для розв’язання цієї проблеми. В основі системи – екран з діагоналлю 65 дюймів, роздільною здатністю 8К та частотою 60 Гц. Навколо нього встановлено три «пристрої захоплення», які зчитують дані про колір і глибину. Також є чотири додаткові камери стеження, чотири мікрофони, два динаміки та інфрачервоні проєктори. Всього кольорове зображення пишеться з чотирьох точок, створюється три карти глибини та сім звукових доріжок.

Все це обладнання генерує масу даних, які слід потім передати. Для цього потрібна пропускна здатність від 30 Мбіт/с до 100 Мбіт/с, залежно від деталізації одягу і великої кількості жестикуляції. Це істотно більше, ніж при звичайному дзвінку через Zoom, але середній офіс у великому місті може собі дозволити такий зв’язок. Для кодування даних використовуються чотири графічні процесори Nvidia (дві Quadro RTX 6000 та дві Titan RTX).

Випробування технології проводилися протягом дев’яти місяців в різних офісах Google. Всього 117 користувачів провели 308 конференцій у будках Starline. Середня тривалість дзвінка становила 35 хвилин.

Про комерціалізацію проєкту поки що не йдеться.

Влітку компанія Nvidia представила новий продукт, побудований на глибокому навчанні нейромереж – алгоритм Vid2Vid Cameo AI. Він розроблений з метою спростити та вдосконалити робочі процеси в умовах карантину. Vid2Vid Cameo бере статичну фотографію користувача й анімує її мімікою в режимі реального часу, замінюючи синтетичним відео потокову відеотрансляцію.

Джерело