Шрифт:
Интервал:
Закладка:
BrainBox AI – монреальский стартап, использующий искусственный интеллект для оптимизации энергопотребления в коммерческих зданиях. Компания применяет глубокое обучение для сбора различных показателей, включая погоду, количество посетителей и температурные условия, чтобы оптимизировать энергопотребление в реальном времени, значительно повышая энергоэффективность.
Генеральный директор компании Сэм Рамадори говорит, что участие в Mila помогает черпать таланты и идеи из одной из передовых ИИ-экосистем мира. Тесная обратная связь между ИИ-исследователями, разрабатывающими новые методы, и компаниями вроде его, использующими их в практических применениях, помогает стартапам создавать, тестировать, учиться и совершенствовать продукты в ускоренных циклах разработки.
«Мы находимся в здоровой экосистеме, и это очень важно, – говорит Рамадори. – Особенно когда речь идет о новой технологии и когда некуда обратиться за помощью. Если бы я писал традиционное программное обеспечение – ничего нового, можно нанять команду где-то далеко, чтобы все написали. С ИИ так не получается. Нужно постоянное взаимодействие, чтобы тестировать последние достижения»[302].
6Третий институт наряду с «Вектором» и Mila – Институт машинного интеллекта Альберты (Amii) в Эдмонтоне, столице Альберты в Западной Канаде. Как Джеффри Хинтон в «Векторе» и Йошуа Бенжио в Mila, ключевая фигура Amii – Ричард Саттон, главный научный консультант института и профессор Университета Альберты.
Саттон – ведущий мировой авторитет по обучению с подкреплением – третьему подходу к ИИ, отличному от нейронных сетей и символического ИИ, обсуждавшихся ранее. В последние годы этот метод получил развитие как популярная техника создания более мощных ИИ-систем.
Обучение с подкреплением также черпает вдохновение из животных моделей интеллекта, конкретно поведенческой психологии. Эти системы учатся методом проб и ошибок адаптироваться к новым и сложным обстоятельствам. Программа, работающая на основе обучения с подкреплением, взаимодействует с окружением, выполняя действия и получая обратную связь в форме вознаграждений или штрафов. Со временем программа учится больше совершать действий, за которые получает вознаграждения, и меньше – тех, за которые ее штрафуют.
Если символические системы учат компьютер распознавать котов на основании правил того, что делает кота котом, а нейронные сети – показывая множество примеров, то системы, построенные на обучении с подкреплением, используют другой подход: показывают программе множество изображений и дают вознаграждение за каждое правильное определение кота и штрафуют за каждую ошибку. Алгоритм изначально дает случайные ответы на запросы, но по мере того, как его способность распознавать котов подкрепляется, он учится давать более точные ответы.
Как и нейронные сети, обучение с подкреплением существует с момента появления этой области – первые упоминания встречаются в работах Алана Тьюринга еще в 1950-х годах. Но до недавнего времени оно не считалось особенно перспективным подходом в ИИ-сообществе, причем среди скептиков был сам Джеффри Хинтон.
Как лауреатов Нобелевской премии, получателей премии Тьюринга приглашают прочесть лекцию о работе всей своей жизни. Во время выступления с такой лекцией летом 2019 года в Фениксе, штат Аризона, Хинтон сделал довольно прямой выпад против обучения с подкреплением: «Есть два вида алгоритмов обучения, на самом деле три, но третий работает не очень хорошо – это обучение с подкреплением». Когда аудитория рассмеялась, понимая шутку, Хинтон продолжил: «Есть прекрасное reductio ad absurdum обучения с подкреплением – это DeepMind»[303].
Теперь Хинтон играл роль Минского – представителя истеблишмента, который отвергает новое просто так, а потом оказывается вынужден поменять мнение. Обучение с подкреплением стало обязательным для новых и более мощных ИИ-систем, не в последнюю очередь благодаря работе DeepMind. Обучение с подкреплением лежит в основе AlphaZero, бота DeepMind, который может победить любого человека в го, сёги и шахматы, – огромное улучшение по сравнению с предыдущей версией AlphaGo, которую AlphaZero также способен победить.
Обучение с подкреплением использует также Covariant – калифорнийская компания, создающая ИИ-роботов для складов, автоматизирующих процессы сбора, сортировки и сборки товаров. Хинтон, скептически относящийся к религии, пережил нечто близкое к моменту прозрения, когда решил инвестировать в Covariant, написав позже в твиттере: «Я сделал небольшую инвестицию (не хочу усиливать обучение с подкреплением), но теперь жалею, что не вложил в 100 раз больше».
Человек, наиболее ответственный за превращение обучения с подкреплением из маргинального направления в мейнстрим, – Ричард Саттон, автор классического учебника в этой области, издающегося уже более 25 лет. Саттон с длинной растрепанной бородой и прямолинейными манерами больше похож на типичного философа, чем на специалиста по информатике. Родился в Огайо, изучал психологию в Стэнфорде, защитил докторскую по компьютерным наукам в Университете Массачусетса в 1984 году. Его карьера шла обычным путем до 2003 года, когда ему, сорокалетнему сотруднику AT&T Bell Labs в Нью-Джерси, диагностировали рак, что заставило задуматься, есть ли вообще смысл что-либо делать.
«Я думал, что скоро умру, все казалось нереальным, – говорит Саттон. – Мне надоело сидеть и ждать смерти, поэтому я решил устроиться на работу в Канаде»[304].
Саттон не думал о карьерных соображениях, когда зимой 2003 года занял преподавательскую должность в Университете Альберты. На первом занятии он сказал студентам, что может не дожить до конца курса. Он перенес четыре серьезные операции, химиотерапию и иммунотерапию после того, как агрессивная меланома поразила основные органы и мозг. Университет, зная о его проблемах со здоровьем, рискнул, наняв уважаемого, но больного преподавателя из-за рубежа. Это сработало блестяще.
Оказалось, что у человека, который думал, что не переживет осенний семестр, лучшие годы были еще впереди. После пятилетней борьбы Саттон победил рак. Сейчас, два десятилетия спустя, ему за 60 – возраст, когда большинство коллег уже на пенсии, но он продолжает активно работать и создает свои лучшие работы.
Саттон входит в десятку лучших умов в компьютерных науках – имя, которое обсуждают каждый сезон премии Тьюринга. Благодаря ему программа компьютерных наук Университета Альберты превратилась из малоизвестного научного сообщества на краю Субарктики в ведущее место для изучения машинного обучения. «Мы гордимся тем, что лучшее место для изучения обучения с подкреплением в мире – это Университет Альберты», – говорит он.
Что изменилось и сделало обучение с подкреплением предпочтительным методом создания более продвинутых ИИ-систем? Ответ во многом кроется в доступности больших вычислительных мощностей. Возражение скептиков вроде Хинтона заключалось в том, что обучение с подкреплением слишком неэффективно. Учить программу играть в шахматы методом проб и ошибок требует слишком много симулированных попыток по сравнению с демонстрацией примеров прошлых игр или прямым предоставлением правил. Резкий рост вычислительной мощности решил эту проблему простым перебором. Теперь алгоритмы могут быть ресурсозатратными, но при этом поразительно результативными.
Возьмем OpenAI Five – программу, играющую в Dota-2 на уровне чемпиона мира, построенную на принципах обучения с подкреплением. Агенту потребовалось 45 000 лет игрового опыта, которые компьютеры «прожили» за полгода чистого игрового времени, ежедневно симулируя 250 лет игры. Программа потребила 800 петафлопс-дней вычислений за 10 месяцев обучения. Обычному ноутбуку пришлось бы работать непрерывно на максимальной мощности более 200 лет, чтобы произвести такой же объем вычислений. На обучение OpenAI Five