AlphaGo Zero自學圍棋 三天創棋步
2017-10-20 自由時報
〔編譯陳正健/綜合報導〕網路搜尋引擎巨擘谷歌(Google)旗下的英國科技公司「Google
DeepMind」十八日在英國期刊《自然》發表論文指出,已開發出新版的人工智慧圍棋程式,名為「AlphaGo Zero」,能在三天內就「自學」精通圍棋,無須以人類為師,且能自創新的棋步,完勝舊版「AlphaGo」。
領導此一最新人工智慧程式發展的研究員席佛(David Silver)指出,「AlphaGo Zero」能夠從零開始自學,只要告知規則後,完全靠自己與自己對戰數百萬回棋賽,從中發現致勝策略。相較之下,舊版「AlphaGo」需先從人類棋手的幾千回對戰資料中學習,之後才能與自己下棋。
經過三天訓練的「AlphaGo Zero」先在對弈中完勝二○一五年版的「AlphaGo」,比數是一百比零。二○一五年版「AlphaGo」是在二○一六年三月,與十八次贏得世界棋王的李世石對戰時,以四勝一敗戰績震驚世人而聞名於世。隨後「AlphaGo Zero」再接受四十天的訓練,又擊敗升級版的「AlphaGo」,該升級版「AlphaGo」與中國圍棋世界冠軍柯潔在今年五月對戰三場全勝。
得知此消息的柯潔十九日在微博上感嘆表示,「一個純淨、純粹自我學習的AlphaGo是最強的……對於AlphaGo的自我進步來講……人類太多餘了」。
AI棋藝 是靠反覆演算
席佛十八日透過視訊解釋「AlphaGo Zero」的運作,是靠「強化學習法」(reinforcement
learning),從反覆嘗試中精通棋藝,程式中設有獎勵機制,自我對弈時只要下了好棋,就會得到正分,反之會得負分。
研究人員在《自然》中指出,「AlphaGo Zero」不僅重新發現人類傾向使用的共同模式與開局棋步,而且還拋棄這些棋招,自創人們未知的新招。Google DeepMind共同創辦人兼執行長哈薩比斯在部落格上指出, 有別於先前版本,「AlphaGo Zero」已不再受到人類知識限制。
「AlphaGo Zero」的程式核心是一套神經網路系統,哈薩比斯強調,許多人以為機器學習與大數據有關,但在「AlphaGo Zero」根本不是這麼回事,「演算法反而更重要」。和擊敗李世石的程式相比,「AlphaGo Zero」只使用一部機器,有四個資料處理器,「AlphaGo」則使用多部機器,有四十八個資料處理器。
英國謝菲爾德大學計算神經科學學者瓦西拉基強調,電腦能在複雜及精準的比賽中擊敗人類,但在其他項目上仍無法與人類相比,機器人只能從事走路、跑步及踢球等活動,這些對人類都是極其簡單之任務。
哈薩比斯則表示,人工智慧在多項任務上要與人類匹敵,仍有很長一段路要走。預計未來十年將用於幫助人類發現新藥和物質、粒子物理學,解開粒子物理學的謎團。
沒有留言:
張貼留言