znat_kak (znat_kak) wrote,
znat_kak
znat_kak

Ученые создали самообучающийся ИИ, способный играть во все игры

22:00

МОСКВА, 6 дек – РИА Новости. Разработчики революционной самообучающейся системы искусственного разума AlphaGo Zero объявили о создании новой версии этой машины, способной самостоятельно учиться играть в любую настольную игру и обыгрывать человека. Ее описание было представлено в журнале Science.


© DeepMind Technologies Ltd.

"Люди учились играть в шахматы, го, сёги и многие другие игры сотни и тысячи лет. AlphaZero самостоятельно достигла вершин мастерства во всех этих играх без какой-либо помощи с нашей стороны. Моя мечта — создать такую же систему, которая бы не просто умела играть, но и решать повседневные задачи, к примеру, создавала бы новые лекарства", — заявил Дэвид Сильвер (David Silver), главный разработчик компании DeepMind.


Глубины разума
Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в конце 2014 года, и ее работа была "протестирована" на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине. В марте 2016 года AlphaGo победил чемпиона мира по го, Ли Седола, в серии из пяти матчей, только один из которых завершился победой человека.
Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг.
Следующим логическим шагом в развитии AlphaGo стала ликвидация главного недостатка всех существующих сегодня нейросетей и систем искусственного интеллекта – необходимости обучать их тому, что они должны делать, используя огромные архивы данных, вручную обработанные человеком, или при непосредственном участии человека, как это происходило на первых этапах развития AlphaGo.
Сильвер и его команда решили эту задачу, создав принципиально новую нейронную сеть, которая базируется на так называемых алгоритмах обучения с подкреплением. Эта нейросеть, в отличие от ее звездного предшественника, который изначально обучался в играх с добровольцами и имел некоторые встроенные примитивные стратегии игры, начала свою работу с состояния абсолютного новичка с нулевым багажом знаний.



Иными словами, ей были известны лишь правила игры в го, начальные условия и условия победы, и затем компьютер самостоятельно учился играть в эту древнекитайскую стратегию, играя сам с собой и действуя методом проб и ошибок. Единственным ограничением в ее работе было максимальное время на обдумывание хода – оно составляло примерно 0,4 секунды.
После каждой подобной игры, система ИИ анализировала все свои ходы и запоминала те, которые приближали одну из ее "половинок" ее к победе, и заносила в своеобразный "черный список" те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолом.
Переход на алгоритмы самообучения не только позволил AlphaGo Zero превзойти уровень своей предшественницы и обыграть ее со счетом 100-0, но и улучшил многие другие аспекты ее работы. В частности, процесс ее обучения занял всего три дня и примерно пять миллионов игр, что было на порядок меньше запросов первой версии ИИ.

Путь к совершенству

Успешное завершение экспериментов с AlphaGo Zero заставило Сильвера и его команду задуматься о том, можно ли применить аналогичную нейросеть для завоевания короны чемпиона в других типах стратегических и настольных игр.
Для этого ученые встроили в AlphaGo Zero еще один новый элемент – эвристические алгоритмы случайного поиска решений, а также код, учитывавший существование ничьи в некоторых играх. Вдобавок, новая версия "альфы" непрерывно совершенствовала свою структуру, а не обновлялась этапами, как ее предшественница.
Эти относительно простые изменения, как показали дальнейшие опыты, значительно повысили скорость самообучения этой системы искусственного разума и превратили ее в универсальную машину, способную играть во все виды настольных стратегий.



Ее работу ученые проверили на трех типах игр – го, обычных шахматах и их японской разновидности, сёги. Во всех трех случаях новое детище Сильвера достигло уровня гроссмейстера меньше чем за миллион игр, достигнув почти человеческой избирательности при выборе возможных ходов всего за 9-12 часов тренировок для шахмат, и за 13 дней для го.
Еще раньше она обыграла самые совершенные компьютерные программы, играющие в эти игры – алгоритм Stockfish "сдался" на четвертый час тренировки AlphaZero, а система Elmo, текущий чемпион в сёги, протянул всего два часа. И наконец, первая версия AlphaGo начала уступать ее "внуку" примерно на 30 часу его обучения.
Следующими "жертвами" AlphaZero, как отметили ученые, могут стать "настоящие" компьютерные игры, такие как Starcraft II и Dota 2. Взятие чемпионства в подобных киберспортивных дисциплинах, по их мнению, откроет дорогу для проникновения самообучающихся ИИ в менее формализуемые области науки, культуры и техники.

via
Tags: ИИ, НОВОСТИ
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments