close

AlphaGo Zero是什麼

在AlphaGo對戰人類圍棋高手柯潔勝利收官後,其背後的人工智能團隊又對其進行瞭改良升級開發出瞭AlphaGo Zero,新的智能AI僅用三天時間自學就打敗瞭AlphaGo,一起來看看吧。

采用新的機器學擴大機濾波電容習形式,升級版人工智能AlphaGo Zero可以自學圍棋棋譜中的一招一式。

用不瞭多長時間,AlphaGo將不再是地球上最好的棋手。新式高超的人工智能程序版本已經出現,它堪稱怪物:在一場白熱化對決中,AlphaGo Zero以100:0的不敗戰績絕殺“前輩”。

真正炫酷之處在於Alphabet Zero是如何做到這一點的。原來的AlphaGo需要與人類專傢進行成千上萬次對弈,才能從中獲取數據,Alphabet Zero則截然不同。雖然它也是由Alphabet旗下的子公司DeepMind開發的,但它從零開始,面對的隻是一張空白棋盤和遊戲規則。它無師自通,僅僅通過自學使自己的遊戲技能得以提高。

這種新程序代表著人類在建造真正智能化機器方面向前邁進瞭一步,因為即使在沒有大量訓練數據的情況下,機器也需要找出解決困難問題的方法。

“最引人註目的一點是,我們不再需要任何人工數據,”DeepMind聯合創始人兼首席執行官戴密斯·哈薩比斯(Demis Hassabis)說。哈薩比斯認為,建造Alphago Zero的技術已經足夠強大,可以應用在現實世界,例如藥物發現與材料科學等一些有必要繼續探索各種可能性的行業。Alphago Zero的相關研究成果發表在今天的《自然》雜志上。

值得註意的是,在自學過程中,Alphago Zero發現瞭許多人類圍棋選手在過去幾千年中形成的訣竅和技術。“在幾天的時間裡,它重新找到瞭已知的最佳玩法,在最後一天,甚至在此之上發現瞭更好的東西,”哈薩比斯說。“看到這一切,感覺很酷。”

DeepMind公司總部位於倫敦,2014年被谷歌收購。該公司專註於利用遊戲、模擬和機器學習在人工智能領域取得巨大進步;迄今為止,他們已經聘請瞭數百名AI研究人員共同追尋這一目標。哈薩比斯說,大約15人參與AlphaGo Zero的研發,耗費的計算資源估計達數百萬美元。

AlphaGo和AlphaGo Zero都采用一種被稱之為強化學習的機器學習方法及深層神經網絡系統。強化學習的靈感來源於動物可通過實驗和反饋進行學習,DeepMind已經使用這種技術,在簡單的雅達利遊戲有著超人的表現。

然而,掌握圍棋有著特別重要的意義,因為圍棋十擴大機改電容分復雜,最好的棋手可以憑借本能落子。換句話說,一盤好棋很難用代碼來解釋或寫出來。

圍棋中各種變數的數量,甚至超過瞭宇宙中原子的數量

毫無疑問,AlphaGo Zero在圍棋世界標志著顛覆性進步,但是,它對世界其他領域有什麼潛在影響?麻省理工學院計算機科學和人工智能實驗室(CSAIL)的研究生尼克·海因斯(Nick Hynes)認為,在一段時間內,它隻是一種專門音響換電容工具,不太可能對我們的日常生活造成沖擊。

“到目前為止,該算法隻適用於采取簡單幾個步驟就能解決的問題,如果要將其運用於移動等連續控制問題,那就需要加以改進,”海因斯告訴Gizmodo。“而且,它要求你具備非常好的環境模型。在這種情況下,它差不多瞭解所有規則。這就像你擁有一個機器人,你可以準確地預測它的行動結果,但在不完美的現實系統中,它是不靈的。”

他說,好消息是目前有幾項人工智能研究正在致力於解決上述兩個問題(例如機器學習、進化算法等),所以,它實際上隻是個集成問題。海因斯說,“這裡的真正關鍵在於技術。”

“正如預期和期望的那樣,我們正在與獲得一堆人類標記數據並訓練一種模型來模仿它的經典模式漸行漸遠,”他說,“我們在這裡看到的是一個毫無人類偏見和預設的模型:它可以從它認為最優的東西中學習,可能比我們自己對這個概念的看法更加細致入微。如同一種外星文明發明瞭自己的數學,允許它去做像時間旅行之類的事情,”對此他補充說,“盡管我們距離奇點還很遠,但我們肯定正在朝著那個方向前進。”

正如海因斯所承認的,這一最新突破並不意味著技術奇點(即在未來某個假定時間,超過人類的機器智能實現爆炸性增長)即將來臨,但它應該讓人們停下思想的腳步。一旦我們教一種系統學會遊戲規則或某一現實世界問題的強制規定,增強學習的力量將使其可以簡單地按下開始按鈕,讓系統做餘下工作。然後,它將找出在這項任務中取得成功的最佳方法,設計出超越人類能力、甚至可能是人類理解能力的解決方案和戰略。

DeepMind研究人員在其論文中所總結道:“我們的研究結果全面展示瞭即使在最具挑戰性的領域,純粹的強化學習方法也是完全可行的:不借助人類的示范或指導,不用學習超越基本規則的知識,就可以培養出超人。”

而事實上,現在人類玩傢已經無法在國際象棋、圍棋等遊戲中獨占鰲頭,可以說,我們已經進入瞭超級智能的時代。這一最新突破是對未來的最細微暗示。

加拿大艾伯塔大學的馬丁·穆勒(Martin Mueller)教授曾對圍棋軟件做出重要貢獻,AlphaGo Zero的設計給他留下瞭深刻印象,認為它使強化學習更上層樓。他說:“這種架構比以前的版本更簡單,功能更強大。”

AlphaGo從來都不僅僅關乎棋盤遊戲。

AlphaGo Zero不是第一種可自主運行的算法——埃隆·馬斯克旗下的非營利機構OpenAI也采用瞭類似技術來訓練一種AI程序玩視頻遊戲——但它的能力表明,它是迄今為止最強大的技術實例之一。

“藥物發現、蛋白質、量子化學、材料設計——材料設計,想想看,也許在室溫下就可以制造出超導體,”哈薩比斯說,他指的是一種可完美導電的假想金屬。

DeepMind說不會公佈代碼,因為它可能被用於其他意圖。哈薩比斯說,研究人員可以從《自然》雜志上復制部分代碼。

該領域的其他人認為,這種方法簡單得令人吃驚,預示著該算法可適用於其他領域。OpenAI的AI研究科學傢蒂姆·薩裡曼斯(Tim Salimans)在發給外媒的電子郵件中指出,簡單而常見的方法在AI研究中非常有價值,因為不需要付出更多努力就可以為其他問題帶來同樣的解決方法。

“我認為將其定性為‘普遍適用於當今的技術優勢’是公平的,”薩裡曼斯說。“當然瞭,盡管它不足以直接應用於其他問題,但可以將其視為解決其他問題的第一步,這種看法不無道理。”

強化學習也顯示出人們有可能在許多其他環境(包括在一些手工編程不現實的地方)實現機器編程自動化。通過測試已證明,運用這項技術可以教會機器人抓取笨重物體,並可以對正在運行的硬件重新配置,以保存數據中心所需能量。然而,在許多實際情況下,可能沒有大量例子可供學習,這意味著機器必須自學成材,這正是AlphaGo Zero令人感興趣之處。

“不使用人工數據或人工專長,我們就可以真正突破人類知識的限制,”DeepMind公司首席研究員、倫敦大學學院教授大衛·西爾佛(David Silver)說,“它能運用基本原理自行創造知識。”

DeepMind已是人工智能界的寵兒,而其最新成果一定會搶占媒體頭條,並引發議論,促使人工智能形式變得更強大。

盡管如此,人們還是有理由對這一成果持謹慎態度。華盛頓大學教授佩德羅·多明戈斯(Pedro Domingos)指出,與人類專傢相比,這款程序仍然需要對弈上百萬次,才能真正掌握圍棋。這表明,在某種程度上,這款程序所使用的智能系統與人類存在根本不同。

“這是一個很好的例子,足以顯示近期人們在深入學習和強化學習方面的進步,但我不想過分解讀,認為機器可以不借助人類知識而自我學習,”多明戈斯說。“如果AlphaGo在奪得冠軍前,練習次數與[韓國傳奇冠軍]李世石(Lee Sedol)大致一樣多,那才令人震撼呢!我們離那一步還遠著呢。”

事實上,西爾佛和哈薩比斯都承認,在機器掌握智能的過程中,如何通過更少的數據進行學習是至關重要的。這可能涉及開發新方法,讓機器將在一個領域學到的知識轉移到另一個領域,或者從觀察他人(包括人類和其他AI)中學習。

但是,盡管這項工作尚待完成,哈薩比斯希望在10年內,人工智能可以在解決科學、醫藥或其他領域的重要問題中發揮重大作用。“我希望這些算法和未來的版本能夠成為我們向科學和醫學前沿推進的常規工作夥伴,”他說。“也許未來所有產品的設計和發現都離不開這些算法,它們將與聰明的人類一起工作。”

人們有很多理由為AI擔心,但DeepMind的AI並不能自主編程,毀滅人類。它們自主編程的目的是將一些無聊乏味的工作從開發人員的肩頭卸下來,讓後者以一種嶄新的視角來觀察問題和數據集。令人驚訝的是人工智能在過去幾年發展神速,但從本周開始人們就可以清楚地看到,現在的進步將會更快。

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 woh664w4i0 的頭像
    woh664w4i0

    你別問我阿

    woh664w4i0 發表在 痞客邦 留言(0) 人氣()