前言
DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3],一个利用强化学习来探索更优排序算法的AI系统。
AlphaDev 系统直接从 CPU 汇编指令的层面入手去探索更优的排序算法,因为相对于高级编程语言来说,在汇编指令层级对存储和寄存器的操作可以更加的灵活,所以能发现更多潜在的调优策略。
在 AlphaDev 的论文中,只关注探索短序列排序:
(相关资料图)
定长序列排序(比如 sort3 算法只能对长度为3的序列进行排序)
变长序列排序(比如 variable sort5 算法可以对长度为1~5的变长序列进行排序)
而对于长序列的排序,可以被分解为短序列的排序。
DeepMind 通过 AlphaDev 发现了比目前人工调优算法更优的定长短序列排序算法 sort3,sort4 和 sort5 ,并且已经将代码提交到了 LLVM 标准 C++ 库[4]。
简单来说,AlphaDev 将探索更高效排序算法的过程,建模为一个单玩家的汇编游戏(single-player game, AssemblyGame)。
游戏的过程就是玩家从 CPU 汇编指令集合中,选取一系列的指令组合得到一个新的排序算法。不过这个过程是非常有挑战的,玩家需要考虑,汇编指令的组合空间并最终得得到一个正确和高效的算法。
该游戏主要包括以下难点:
汇编游戏的搜索空间和围棋类似(10^700)
只要有一条指令没弄对,可能就会导致整个算法错误
AlphaDev 系统详解将排序算法表示为 CPU 汇编指令首先来看一个简单的变长(variable sort2)短排序函数的 C 代码实现,排序结果从小到大:
voidvariable_sort_2(intlength,int*a){switch(length){case0:case1:return;case2:inttmp=a[0];//a[0]保存两者之间的最小值a[0]=(a[1]通过 gcc生成对应的汇编代码,我用的 gcc版本是 11.3.0,命令 gcc -S -O1 -o sort2.s sort2.c
汇编代码只保留了核心部分,生成的结果和论文中的示例有些许不同但是原理是一致的:
variable_sort_2: .LFB0:; %edi 寄存器保存参数 length 的值; cmpl 指令对比 %edi 和 常量 2cmpl$2, %edi ; 相等就跳转到 .L3 标签处, ; 对应 C 代码的 case 2je.L3.L1:; 不等于 2 就直接返回, ; 对应 C 代码 case 0 和 1ret .L3:; 将 a[0] 赋值给寄存器 %edx movl(%rsi), %edx; 将 a[1] 赋值给寄存器 %eax movl4(%rsi), %eax; 对比 %edx 和 %eaxcmpl%edx, %eax; 将 %edx 赋值给 %ecxmovl%edx, %ecx; cmov 是条件移动指令根据 cmpl ; 指令的结果判断是否执行; 如果 %eax <= %edx ; 则将 %eax 赋值给 %ecxcmovle%eax, %ecx; 此时 %ecx 保存了最小值; 将 %ecx 赋值给 a[0]movl%ecx, (%rsi); 如果 %eax 小于 %edx; 则将 %edx 赋值给 %eaxcmovl%edx, %eax; 此时 %eax 保存了最大值; 将 %eax 赋值给 a[1]movl%eax, 4(%rsi)jmp.L1一般来说汇编程序所做的事情基本都是,将内存的值复制到寄存器,然后对寄存器的值作修改,再将寄存器的值写回到内存中。
而 AlphaDev 系统只关注 x86 处理器架构所支持的汇编指令集合的一个子集。
每条汇编指令的格式均为:操作码<操作数A, 操作数B>比如:
cmp比较指令,相当于 执行 A - B 操作,但是不会对 A 和 B 做修改,而是根据相减的结果设置特殊的 flag 寄存器,更多内容可以参考[5]
将探索更优排序算法表示为强化学习问题AlphaDev 将 CPU 汇编指令层面的算法优化过程转化为一个单玩家的游戏。
游戏每一步的状态定义为 : St =
。 其中, Pt表示游戏到至今为止所生成的算法,Zt则表示在给定输入的前提下执行完 Pt里的指令之后,内存和寄存器的状态。
如上图所示,在时间步 t,AlphaDev 接受到当前状态 St和 所要执行的动作 at(比如 mov),也就是往当前生成的算法 Pt中添加的合法汇编指令。
在添加完指令之后,就是计算奖励分数 rt(包括评估算法的正确性和延迟)。
算法正确性评估正确性评估就是将 N组测试序列输入到算法 Pt中,得到N组输出,和正确的排序结果最比较来计算奖励分数。
论文中给出了3种正确性评估函数,首先定义 P为输入序列长度, PCt为在时间步 t序列中,位置正确的值的个数,这里我理解应该是和正确的排序结果逐个位置对比,统计相等的个数。
三个函数分别定义如下:
func1 = (P - PCt) / P
func2 = sqrt(func1)
func3 = sqrt(PCt)
论文中提到采用第三个函数效果最好。
延迟评估延迟分数的计算可以是:
对系统增加代码长度计算惩罚,因为代码的长度一般都是和耗时高度相关
直接计算算法的真实耗时
整个强化学习的游戏在执行有限步骤之后就会被终止。只有生成正确而又低延迟的汇编代码才算赢得游戏。而不管是生成了错误的代码还是正确但低效的实现都视为游戏输了。
AlphaDev 采用的强化学习算法是对 AlphqaZero 算法的扩展,也是采用深度神经网络来引导蒙特卡洛树搜索(MCTS)的规划过程。网络模型的输入是 St,输出是对动作策略和奖励的预测。
整个游戏过程简单来说就是,用一个固定参数的网络模型,通过给定的当前状态执行一个蒙特卡洛树搜索过程,然后采取下一步动作。然后可以用生成的游戏过程(包含每一步的状态和奖励)去训练和更新网络的参数。
网络模型结构模型包含两部分:
一个 Transformer 编码器模块,用于建模算法,输入是至今为止生成的汇编指令序列
一个 CPU 状态编码器 MLP 模块,输入当前寄存器和内存的状态
两个网络的输出 embedding 会合并在一起来表示当前的状态。
网络模型整体的结构如下:
Transformer 编码器模块具体图示
如上图所示,把当前生成的汇编代码序列的每一条指令的操作码和操作数都转换为 one-hot 编码序列,然后输入到网络中。
但是具体的 one-hot 编码规则、词表怎么设置、还有对于 CPU 状态编码网络寄存器和内存的状态是怎么表示为网络的输入的等等,这些细节我在论文里没找到。
然后两个网络的输出 embedding 会合并到一起接着输入到几个函数头里计算,分别是预测下一步策略的函数头,预测算法正确性的函数头和预测算法真实延迟的函数头。
网络参数超参设置
论文的补充资料中提供了网络的参数和三个函数头的具体配置。
而对于策略的预测,论文中提到为了简化问题和提高收敛性,而对动作空间做了一些限制,规则如下:
必须按照升序方式读取内存
寄存器按照升序分配
cmp和 cmovX指令的操作数不能出现内存地址
对每个内存位置,只能读取和写入一次
每个寄存器在使用之前,必须初始化
不能连续调用 cmp指令
训练细节
AlphaDev 的训练采用了 TPU v3,每个 TPU 核的 batch size 是 1024 ,总共用了 16 个 TPU 核,总共训练了 100 万次迭代。而在对于玩游戏积累训练数据来说,则是在 TPU v4 上进行,总共用了 512 个 TPU 核。
实验结果表明,最多只需2天模型就能训收敛。
实验结果生成的算法和人工调优对比从实验结果表格可以看到,对于短序列排序算法 AlphaDev 生成的代码长度更短,而且平均耗时也更低。
对生成算法延迟的评估方式,比如对于 sort3则是在 100 台机器上做评估,每台机器随机生成 1000 条 3个数的序列,然后每条序列输入到算法中,对这 1000 次评估取第5百分位数作为最终的评估结果(排除 cache miss 和 任务抢占 等因素)。
耗时采用的是 CPU_CLK_UNHALTED.CORE这个计数器结果, 其计数值表示在一个特定时间段内,处理器内核的时钟周期数。这个值越高,意味着处理器内核在该时间段内执行了更多的指令。
AlphaDev 发现新的算法对于定长序列排序,当应用到排序网络算法[6](sorting network algorithm)的时候 AlphaDev 生成的代码中包含了一些有趣指令序列,相对于原始指令序列可以减少一条汇编指令,论文中称之为:
AlphaDev swap move
AlphaDev copy move
啥是排序网络算法?
排序网络算法(Sorting Network Algorithm)是一种能够对一组输入数据进行排序的并行算法,其具有较好的并行性能适用于多处理器或多核心系统。
该算法的特点是,它将所有的比较和交换操作预先规划好形成一个固定的结构,然后将输入数据按照这个结构进行排序。
排序网络由比较器(comparator)和线(wire)组成,如下图所示:
水平线表示 wire,每条水平线持有一个待排序的值。两条 wire 之间的垂直线段就表示一个比较器,比较器对比两条水平线的值,如果比较器下方的值小于上方的值则交换两条横线的值,否则则不交换。
一个优化过的排序网络可以以最少的比较器,并将这些比较器放置在特定位置上,来实现对任意序列进行排序。
下图是对一个构造好的排序网络,输入真实待排序序列的例子:
可见初始输入是 [2, 3, 1, 4],这些随机数从左到右按顺序经过这些比较器之后,就得到了排序好的序列 [1, 2, 3, 4]。
AlphaDev swap move
先来看这个排序网络,只看红圈部分的功能就是对给定的输入 [A, B, C]将其转换为 [min(A,B,C), max(min(A,C),B), max(A,C)]。
然后经过 AlphaDev 优化之后,可以将第一个输出的 min(A,B,C)改为只计算 min(A,B),原因是因为前面的 B和 C横线之间经过比较器之后已经有了前置条件 B <= C。
而通过这个优化就能省去一条汇编指令,下图是红圈部分的伪代码实现:
左边是原始伪代码实现,右边是经过 AlphaDev 优化之后的实现,可以看到少了一条汇编指令 mov S P。
AlphaDev copy move
接下来看对4个元素进行排序的排序网络,是在对 sort8这个算法优化过程中发现的。该排序网络对于输入序列 [A, B, C, D]转换为 [min(A, B, C, D), max(B, min(A, C, D), max(C, min(A, D)), max(A, D) ]。
该排序网络是 sort8的一个子排序网络,而根据比较器的放置位置来看,A和 D比较之后后续就不再和其他元素比较了,所以D出来的结果就是四个元素中最大的,所以隐含了一个条件就是 D >= min(A, C)。
因此对第二个输出元素的计算可以从 max(B, min(A, C, D))改为 max(B, min(A, C)),就可以节省一条汇编指令。
伪代码如下:
左边是原始伪代码实现,右边是经过 AlphaDev 优化之后的实现,可以看到少了一条汇编指令 mov P T。
总结这篇文章只是对 AlphaDev 论文中的主要内容作解读,对于更多的内容和细节感兴趣的读者可以查阅原论文和论文的补充资料 [2,3],DeepMind 也也开源了一份伪代码实现 [7]。
参考资料[1] https://ee.usc.edu/~redekopp/cs356/slides/CS356Unit5_x86_Control
[2] https://www.nature.com/articles/s41586-023-06004-9#MOESM1
[3] https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-023-06004-9/MediaObjects/41586_2023_6004_MOESM1_ESM.pdf
[4] ⚙ D118029 Introduce branchless sorting functions for sort3, sort4 and sort5. (llvm.org)
[5] 小信豬的原始部落: PC Assembly Language 學習筆記(5) - Control Structures (godleon.blogspot.com)
[6] https://en.wikipedia.org/wiki/Sorting_network#:~:text=as%20the%20contrapositive.-,Constructing%20sorting%20networks,are%20often%20used%20in%20practice.
[7] https://github.com/deepmind/alphadev
上一篇:燕京啤酒(000729):6月21日北向资金减持32.77万股
下一篇:最后一页
- DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法
- 燕京啤酒(000729):6月21日北向资金减持32.77万股
- 极氪电池质保权益升级,满足用车多场景需求
- 哥白尼的故事100字(哥白尼的故事)_世界今日讯
- 国家赔偿以支付赔偿金为主要方式的案例 国家赔偿以支付赔偿金为主要方式
- 最高法首次发布涉体育纠纷民事典型案例
- 川渝供电公司共护国家重要能源输送通道“健康”度夏 全球动态
- 多地推动考古学专业建设,冷门专业逐渐“热”起来
- 焦点要闻:大悦城地产(00207)附属向杭州燚乐提供贷款总额最高为2.58亿元的无抵押非循环贷款
- 青海省玉树藏族自治州曲麻莱县2023-06-16 14:26发布雷电黄色预警
- 球探教练高管锐评2023热门新秀——前锋篇
- 成都大运会田径比赛价格多少?|全球观速讯
- 天天视讯!国际禁毒日|天门法院集中宣判毒品犯罪案件
- 生铁剑_关于生铁剑介绍
- 焦点消息!研究揭示南海西北陆缘孤立海底峡谷系统形成机理
-
DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法
前言DeepMind最近在Nature发表了一篇论文AlphaDev[2,3],一个利用强化
-
每日快讯!全新一代丰田埃尔法正式上市 售89.90-90.90万元
【太平洋汽车新车频道】6月21日,全新一代埃尔法(询底价|查参配)正式
-
燕京啤酒(000729):6月21日北向资金减持32.77万股
6月21日北向资金减持32 77万股燕京啤酒。近5个交易日中,获北向资金增
-
儿童兔子帽子的织法_一起来学习一下-全球快看
1、开始缝4针,在第一行(正面)下针,在第二行(背面)上针。2、从第三排
-
极氪电池质保权益升级,满足用车多场景需求
与此同时,在动力电池保养和维护条款中,极氪新增建议条款“车辆连续静
-
5年减免超6000亿元 新能源车购置税新政超预期 环球观察
证券时报记者秦燕玲6月21日,国务院新闻办公室举行国务院政策例行吹风
-
哥白尼的故事100字(哥白尼的故事)_世界今日讯
白尼的故事100字,哥白尼的故事这个问题很多朋友还不知道,来为大家解
-
官方:尤文买断米利克,买断费630+110万欧元,分期三年
直播吧6月22日讯官方消息,尤文买断米利克,买断费630+110万欧元,分期
-
世界速讯:手机分辨率怎么设置_手机分辨率如何设置
欢迎观看本篇文章,小升来为大家解答以上问题。手机分辨率怎么设置,手
-
国家赔偿以支付赔偿金为主要方式的案例 国家赔偿以支付赔偿金为主要方式
1、B,C,D答案解析:[解析]我国《国家赔偿法》第二十五条规定:“国家赔
-
会后悔吗?哈弗茨本赛季英超进球、创造机会等9项数据是蓝军最多
多方消息确认,阿森纳将签下切尔西前场多面手哈弗茨,而后者也堪称蓝军
-
以太鼓为主题的动作游戏《御伽活劇》2023年冬季发售
以太鼓为主题的动作游戏《御伽活劇 豆狸のバケル ~オラクル祭太
-
最高法首次发布涉体育纠纷民事典型案例
中新社北京6月21日电(记者张素)21日,中国最高人民法院首次发布涉体
-
世界通讯!合康新能拟向美的集团定增募资14.73亿元
合康新能披露向特定对象发行股票预案。本次发行对象为公司间接控股股东
-
川渝供电公司共护国家重要能源输送通道“健康”度夏 全球动态
6月21日,在重庆市永川区仙龙镇大牌坊村,国网重庆永川供电公司联合国
-
每日动态!wow9.0破碎群岛怎么去(100级怎么去破碎群岛)
1、部落收到的战斗号召是让玩家到奥格瑞玛门口会见一个NPC然后接受一个
-
多地推动考古学专业建设,冷门专业逐渐“热”起来
伴随着我国经济的高速发展和考古学资料获取能力的不断提升,在未来相当
-
熊猫雷笋股东黄承平减持23.42万股 权益变动后直接持股比例为39.99%
熊猫雷笋股东黄承平减持23 42万股权益变动后直接持股比例为39 99%2023
-
焦点要闻:大悦城地产(00207)附属向杭州燚乐提供贷款总额最高为2.58亿元的无抵押非循环贷款
大悦城地产(00207)发布公告,于2023年6月21日,杭州疆悦(公司的间接非全
-
“端午”假期,爬泰山要注意这些!
齐鲁网·闪电新闻6月21日讯6月21日下午,泰安市人民政府新闻办公室召开
-
青海省玉树藏族自治州曲麻莱县2023-06-16 14:26发布雷电黄色预警
一、青海省玉树藏族自治州曲麻莱县天气预报1、曲麻莱县气象台6月16日14
-
每日播报!2名男子深夜粘贴涉黄小卡片,汉川警方抓现行
2名男子深夜粘贴涉黄小卡片,汉川警方抓现行---不堪入目的文字,附上隐
-
球探教练高管锐评2023热门新秀——前锋篇
近日theAthletic采访了多名来自NBA和大学的高管、教练、球探,让他们点
-
罗马诺:巴黎对西蒙斯回购条款金额仅600万欧,球员拥有决定权
罗马诺:巴黎对西蒙斯回购条款金额仅600万欧,球员拥有决定权,巴黎,西
-
成都大运会田径比赛价格多少?|全球观速讯
田径比赛票价(前面是预赛价格、后面是决赛 半决赛,具体以实际购票价格
广告
X 关闭
(相关资料图)【环球时报综合报道】据英国《卫报》5日报道,近日,一项针对英国、法国、西班牙等9个欧洲...
广告
X 关闭
(资料图片仅供参考)新华社喀布尔12月13日电(记者邹学冕)中国驻阿富汗大使王愚13日说,阿首都喀布尔一...