统会神经网络中根据策略网络功能,探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。
在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,围棋系统的搜索算法就能在其计算能力之上加入近似人类的直觉判断。”
前世包括阿尔法系统的旧版本,都是结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。
而现在落寒所讲述的方法,还没有任何期刊杂志发表过,毫不过分的说落寒现在的方法是全球首创也不为过。
当然这是在获得深度睡眠学习系统后,在梦里附身前世阿尔法的机器人的主创人员学到的办法,只是时间有些短,现在还有一些问题没有解决。
台上,落寒对着一堆博雅的教授副教授继续侃侃而谈,回答者他们各种各样的问题。
落寒根本不像是在进行答辩,反而像是在给他们开报告会,只是地点有些不对罢了。
问题回答的差不多了两方又开始分析系统没达到预期效果的原因,集思广益,所有的评委都参与进来,众人开始讨论。
“我觉的进化到专业五段就停止,问题还是在你构建的单一神经网络上,会不会是你的网络太简略,已经到达了极限无法支撑其继续自我博弈。”
“我不这么觉得,既然可以自我学习,就代表神经网络应该没问题。
可能是你的电脑硬件的方面的问题,储存空间有限,毕竟你是自己在单打独奏,设备跟不上是有很大可能的。”
一个皮肤黝黑,理着光头三十岁左右的老师开口道,这还是他今天第一次开口询问。
落寒从上午看到这位老师,就有点疑惑他真的是研究计算机的么?
隔着衣服都能感觉到他身上的肌肉块棱角分明,出去说他是健身教练一点都不为过。
www.。m.