Группа ученых во главе с Али Фархади (Ali Farhadi) из Института искусственного интеллекта Аллена (США) научилась предсказывать поведение собак по видеозаписи. Исследователи использовали записи камеры GoPro, закрепленной на голове собаки, и при помощи этого массива данных обучили нейросеть определять вероятное поведение животного на пять кадров вперед.
Исследования в области компьютерного видения, как правило, сводятся к проблемам обнаружения объектов, распознавания, классификации изображений. У специалистов из Института Аллена была более амбициозная задача: «Понимание визуальных данных в той мере, в какой агент выполняет действия и задачи в визуальном мире».
Так, они выбрали визуальным агентом собаку, так как у нее более простое пространство действий, чем у человека. С другой стороны, собаки умны, реагируют на множество факторов, включая других зверей и людей. Для эксперимента важно, что цели и мотивы собак часто неизвестны, а движения — активны и разнообразны.
Данные для опыта включают видео от первого лица собаки, которое записывала закрепленная на голове камера GoPro, и инерциальные датчики на ее теле, каждой лапе и хвосте. Таким образом, положение тела и поза животного фиксировались одновременно «от лица собаки». Данные синхронизировали по записи звукового фона с камеры и независимых датчиков. Видео записывали с частотой пять кадров в секунду, показания датчиков — 20 в секунду.
Ученые вели запись в разных локациях: в комнатах, на лестнице, улице и в парке — всего более 50 мест. А также в разных условиях: при общении с другими собаками, выполнении команд, поиске предметов и так далее. При этом исследователи никак не отмечали и не типологизировали записи — изучали непосредственно движения.
Экспериментаторы сняли 380 видео, что составило 24 500 кадров: 21 тысячу из них использовали при обучении нейросетей, полторы тысячи для валидации, а оставшиеся две тысячи — как тестовые.
Модель поведения разбили на три проблемы:
- Действовать как собака. Нейросеть предсказывает ее движение, исходя из базы данных.
- Планировать как собака. Нейросеть прогнозирует последовательность действий, которые использует животное для перемещения из начальной позиции в конечную. Позиции задаются видом «от лица» собаки.
- Обучаемся как собака. Нейросеть распознает объекты и определяет, по каким поверхностям может перемещаться животное.
Ученые использовали сразу два вида нейросетей. CNN (convolutional neural network) — сверточная сеть, применяется для распознавания изображений. LSTM (long short-term memory) — долгая краткосрочная память; этот вид нейронных сетей эффективен для обработки данных, поступающих через неравномерные временные промежутки.
Сеть CNN распознает объекты на изображениях, а LSTM прогнозирует последовательность действий собаки для заданного кадрами перемещения.
Ученые проверили результат на двух тысячах незнакомых кадров, которые не задействовали при обучении нейросети. Проверка показала, что система успешно планирует движения, выполняемые живой собакой. Достаточно пяти кадров, чтобы обученные нейросети достоверно предсказали поведение животного на следующих пяти кадрах. Речь идет о визуальной информации, датчики применяли только при обучении нейросетей.
Очевидно, что обученная система сможет оценивать проходимость различных поверхностей для собаки. Описанное исследование использовало изображение, но подобным образом нейросети возможно обучить, задействуя другие виды восприятия (в первую очередь слух). Комбинирование обученных сетей повысит точность прогнозирования. Задача моделирования нескольких взаимодействующих друг с другом собак также интересна. И, конечно, прогноз возможен и для других животных, а со временем и человека.
Исследователи считают, что продолжение работы поможет лучше понимать не только собак, но и всех существ, населяющих нашу планету.