其一是,将历史比赛数据转化为知识,投喂给它。让它基于“规则”和“知识”,通过MCTS算法和神经网络组合自我训练。
其二是不断给他找对手,它的深度卷积网络会在对局中基于胜率,自动捕捉高阶模式。
听着很美好,但也导致参数空间扩张和外部数据资产的不断积累。
简单的说,数据量越来越大。
而计算机的算力、总线、内存、外部存储器和磁盘阵列控制器的吞吐、读写速度都是有限的。数据量越来越大,就意味着调用、比对、决策的时间越来越慢。
而国际象棋的时间规则又那么严苛,这几乎是无解的矛盾……
谁也没想到,这个问题在曲卓上次来时,所有人都没留意的情况下,就被初步解决了。
虽然他只待了大半天,其中很大一部分时间还用在了开会和闲聊上。
闲聊过程中,得知参数量越来越大,不但占用了大量宝贵的硬盘空间,甚至为了保证读取速度,不得不将数据分配到不同磁盘阵列里。
确定了问题后,曲卓只用了两个小时左右,就编辑了一个知识库蒸馏程序。随后用蒸馏程序对现有数据进行清洗、去重,还修改了标注规则。
“蒸馏”的过程非常慢,分布在四个磁盘阵列下,已经累积到接近3G的专项知识库,用了二十多个小时才完成。
等蒸馏结束后,实验室的人惊讶的发现,新的智能体数据包,居然只有两百三十多兆,参数量从亿级骤降到了百万级。
没有人知道如此夸张的脱水比,在提升知识密度的同时,会损失多少有效知识。但毫无疑问,运算速度重新回到了丝滑流畅的水平。
呃~~
只能说,不同的时代,对“丝滑流畅”这一评价的阈值,是不同的。
然后,就是不断的惊喜。
大概从去年年底诺贝尔颁奖前后开始,参数进行过深度优化的“悟空”,进入了连胜状态。
消息传开后,之前那些体验后便失去了兴致的国际象棋高手们,有人起了再次体验的兴趣。
今年一月中,“悟空”在所有人都毫无准备的情况下,突兀的赢了一位继去年夏天后,第二次至牛津体验与“悟空”对弈的国际象棋大师大卫?古德曼。
大卫?古德曼国际棋联认证,Elo2380-2400,世界排名290至300的IM级职业选手。