Людям всегда было трудно научиться хорошо играть в го, а научить этому компьютер казалось и вовсе невозможным.
Игра го построена на чистой стратегии, в ней нет места везению[2]. Она была создана в Китае минимум 2500 лет назад[3]. Играют в нее два человека: один белыми камнями, другой черными, – по очереди выставляя их на пересечения линий решетки размером 19 × 19 (пунктов). Если группа камней или один камень лишаются всех точек свободы, то есть незанятых соседних пунктов по горизонтали и вертикали – а такое, как правило, происходит, когда они оказываются окружены камнями противоположного цвета, – то считаются захваченными и снимаются с доски. Побеждает[4] игрок, который захватил большую территорию.
Те, кому нравится стратегия, любят и го. Конфуций говорил, что «благородные мужи не должны тратить время на простые игры – они должны изучать го»[5]. Во многих кругах го ставят выше, чем шахматы – сложную стратегическую игру для двух человек, победа в которой не зависит от удачи. Гроссмейстер Эдуард Ласкер[6] заметил: «Тогда как вычурные правила шахмат могли быть созданы только людьми, правила го настолько элегантны, органичны и строго логичны, что иные разумные формы жизни, если они существуют где-то во Вселенной, почти наверняка играют в эту игру»[7].
Очевидная простота игры скрывает сложность, которую даже трудно осознать. Большая доска и широкий выбор мест, куда можно ставить камни, приводят к числу 2 × 10>170 (к двойке со 170 нулями)[8] – столько в го позиций. Насколько велико это число? Вот вам очень приблизительный ориентир. Наблюдаемая Вселенная содержит примерно 10>82 атомов[9]. Если бы каждый из них стал Вселенной размером с нашу, то число возможных позиций в го по-прежнему было бы больше, чем количество атомов во всех этих вселенных.
ИГРА, КОТОРУЮ НИКТО НЕ В СИЛАХ ОБЪЯСНИТЬ
Каким образом лучшие мастера го ориентируются в безумной сложности игры и делают хорошие ходы? Никто не знает, даже сами игроки. Они изучили некоторый набор эвристических приемов и стараются их придерживаться[10]. Но этим все и ограничивается – даже мастера часто затрудняются объяснить свою стратегию. Майкл Редмонд, один из немногих игроков неазиатского происхождения, достигших высшего ранга в игре, поясняет: «Я вижу ход и уверен в его правильности, но я не могу сказать вам точно, как я это узнаю. Я просто вижу»[11].
Дело не в том, что игроки в го косноязычны. Просто у всех нас нет полного доступа к собственным знаниям. Когда мы распознаем чье-то лицо или едем на велосипеде, мы не способны четко объяснить, как и почему делаем то или другое. Трудно изложить скрытое знание. Такое состояние прекрасно описал Майкл Полани[12]: «Мы знаем больше, чем способны рассказать».
Парадокс Полани, назовем его так, был серьезным препятствием для всех, кто попытался построить компьютер, играющий в го. Как написать программу, основанную на оптимальных стратегиях игры, когда никто из людей не в силах сформулировать стратегии? Можно запрограммировать некоторые эвристические правила, но это не обеспечит победу над сильными игроками, выходящими за их рамки, но не способными объяснить, как они это делают.
Чтобы ориентироваться в сложных средах, например во всех возможных позициях игры го, разработчики часто опираются на моделирование. Они пишут программы, которые делают ход, выглядящий хорошим, затем исследуют все разумные ответы противника на него, все разумные ответы на каждый такой ответ и так далее. В конечном счете обычно выбирается тот ход, что обеспечивает больше всего хороших вариантов и меньше всего плохих. Однако из-за того, что существует такое огромное количество возможных партий в го – так много вселенных, ими полных, – у вас получится смоделировать ничтожно малую их долю, будь у вас хоть цех, полный суперкомпьютеров.
Вследствие недоступности ключевых знаний и неэффективного моделирования прогресс у программистов, занимавшихся го, шел медленно. Давая характеристику нынешней ситуации с компьютерами, играющими в го, и ожидаемым перспективам, профессор философии Алан Левиновиц заключил в мае 2014 года в журнале Wired: «Может оказаться, что появление в течение десяти лет компьютера-чемпиона – слишком оптимистичный прогноз»[13]. Статья в Wall Street Journal, написанная в декабре 2015 года профессором психологии Крисом Чабрисом, ведущим в журнале колонку об играх, называлась «Почему го по-прежнему не дается компьютерам».
ПРЕОДОЛЕНИЕ ПАРАДОКСА ПОЛАНИ
В научной статье, опубликованной буквально в следующем номере Wall Street Journal (в январе 2016 года), рассказывалось о компьютере, который уже нельзя одурачить. Группа из лондонской компании DeepMind, принадлежащей Google и специализирующейся на машинном обучении (эту область искусственного интеллекта мы обсудим в главе 3), опубликовала статью «Освоение игры го с помощью нейронных сетей и поиска по дереву»[14], и престижный журнал Nature сделал ее темой номера. Статья описывала программу AlphaGo, которую создатели научили играть в го, обойдя парадокс Полани.
Они не пытались напичкать программу лучшими стратегиями и эвристическими правилами. Вместо этого они создали систему, самообучающуюся в ходе анализа игровых позиций во множестве партий. AlphaGo должна была замечать в большом количестве данных мельчайшие паттерны и связывать действия игроков, например постановку камня на конкретное место, с результатами, скажем с выигрышем[15].
Дав программе доступ к тридцати миллионам позиций, записанных в онлайновом хранилище, ей, по сути, сказали: «Используй их и выясни, как выигрывать». AlphaGo также сыграла множество партий против самой себя, сгенерировав еще 30 миллионов позиций, которые затем проанализировала. Во время игры система вела моделирование, однако весьма узкое: она использовала знания, полученные от изучения миллионов позиций, чтобы моделировать только те ходы, которые, по ее мнению, вели к победе с наибольшей вероятностью.