free_porn_video DeepMind相关老本大起底, 一篇ICML论文烧掉1290万好意思元 - 性爱大师影音

你的位置：性爱大师影音 > 色狼 >

free_porn_video DeepMind相关老本大起底, 一篇ICML论文烧掉1290万好意思元

发布日期：2024-08-06 05:27 点击次数：60

free_porn_video DeepMind相关老本大起底，一篇ICML论文烧掉1290万好意思元

【新智元导读】DeepMind最近被ICML 2024吸收的一篇论文free_porn_video，完统统全袒露了他们背靠谷歌的「豪横」。一篇著作预估了这项相关所需的算力和老本，八成是Llama 3预教师的15%，耗费资金可达12.9M好意思元。

发一篇顶会论文，需要若干实验预算？

最近，DeepMind发表了一项相关，对LLM扩大限度时多样算法和架构细节，比如参数和优化器的聘用，进行了辽远的实证拜谒。

这篇论文已被ICML 2024吸收。

论文地址：https://arxiv.org/abs/2407.05872

63页的论文涵盖了漫山遍野的模子，备选决策包括3种优化器、4种参数化决策、几种对都假定、十多个学习率，以及最高达26.8B的14种参数限度。

需要进行实验的4种参数化决策

只是听到这些数字，就不难知谈，这项相关必定波及海量的模子开动实验。

而有一位诚实读者，为了测试我方对论文内容的融合，统计了其中进行的系数实验，并估算出了复现论文的老本。

将所需算力全部加在沿路，琳琅满目，确凿达到了惊东谈主的1290万好意思元。

训练基本功的时刻到了，假如你是相关团队的leader，字据实验筹备对所需算力和老本进行预估是一项必不成少的本事。

那就让咱们随着这篇博客著作盘一遍，这一千多万好意思元，究竟烧在那里。

Transformer架构信息

论文附录C提供了对于模子算法和架构的多样细节建造，比如使用decoder-only架构、层归一化、GeLU激活函数、无dropout、T5分词器、批大小为256、用FSDP并行等等。

实验模子的参数限度统计

通过架构方面的信息，咱们不错约莫估算出教师中每个token所需的FLOPS，记为M。

由于论文莫得形容到任何GQA/MQA机制，是以就假定Rkv=1，此外还有lseq=512，Dhead=128，L=8（深度），V=32101（分词器词汇量）。

模子总参数目不错暗示为：

因此，就不错得到M的计较公式：

默许情况下，每次实验处置的token数（tokens per experiment， TPE）为5k（教师步数）×256（批大小）×512（lseq），约为6.5536e9。

defM(d: int， L=8， l_seq=512， V=32101) -> int:

return6*d * (L*(12*d + l_seq) + V)

TPE = 50000 * 256 * 512

对都实验

假定对都实验中，胜利使用了背面的学习率扫描得出的最优成果，并莫得单独进行学习率扫描，因此这一步的老本计较比较简便：

defalignment -> int:

return4 * TPE * sum(M(d) for d in [1024，2048，4096])

# >>> f'{alignment:.3E}'

# '3.733E+20'

# >>> cost_of_run(alignment)[0]

# 888.81395400704

淌若H100每开动1小时的破耗以3好意思元计较，对都实验的老本约莫为888好意思元。

学习率

子问题：最好评估吃亏（eval loss）实验

论文的表E1纪录了6种模子限度下，系数可能的优化器×参数化决策×模子大小×实验建造的组合，辞别进行基础学习率扫描，以得回最好评估吃亏。

悉数包括如下几个实验变量：

- 模子维度D∈3072，4096，6144，8192，12288，16384

- 4种参数化决策

- 3种优化器，其中SGD仅有5个实验建造，Adam和Adam+Param Scaling有7个实验建造

假定这里的实验都是单独进行，莫得从其他地点复制成果，因此淌若全部开动一遍，有老本上限预估：

H = [1，2，4，6，8，12，16，20，24，32，48，64，96，128]

D = [h * 128for h in H]

deftable_e1 -> int:

sets_x_optims = 5 + 7 + 7

return4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:])

# >>> f'{table_e1:.3E}';cost_of_run(table_e1)

# '1.634E+23'

# (388955.9991064986， 16206.499962770775)

这部分的老本就接近40万好意思元，天然仍属于可袭取界限内，但对于大大都学术预算来说free_porn_video，还是算瑕瑜常腾贵了。

表E1给出了最好评估吃亏，但莫得形容LR的扫描政策，每张图上的点数也不尽换取。

由于莫得得到论文作家的恢复，咱们也无法详情具体机制，因此假定每个最好评估吃亏都经由了15次实验（目测发现，每条线的点数约为10～15）。

β参数

字据论文4.2节内容，学习率还波及到两个超参数的聘用：β和γ。

淌若仅有β参数，则被称为「LR+default」建造：

这部分包括3×优化器，4×参数化，加上全局和单层（GlobalLR、Perlayer-fullalign）辞别进行实验，以及未知的LR扫描数目：

defbeta_only -> int:

return3*4*2*PpL * TPE * sum(M(d) for d in D)

# 7.988E+23 (1902022.3291813303， 79250.93038255542)

从公式就不错看出，老本和下文的epsilon实验雷同，都是200万好意思元。

γ参数

比较β参数的实验，这部分有两个细节各别。

最初，除了GlobalLR、Perlayer-fullalign两种建造外，还需要加上Perlayer-noalign建造。

其次，仅针对d=1024=b，进行3D超参数搜索(γ_1，γ_h，γ_L+1)，因此有零碎的800次开动。

两者集中后的计较公式为：

这部分的预估老本与Adam的epsilon热力求实验接近，约为320万好意思元。

defgamma_expts -> int:

return36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D))

# gamma_expts 1.354E+24 (3224397.534237257， 134349.8972598857)

Adam优化器的Epsilon参数

论文4.3节所述的Epsilon参数实验是计较量的大头。

字据上头的推断，每次找到最好评估吃亏机都尝试过15个不同的学习率（points per line），那么图6所示的epsilon参数变化图耗费的计较量为：

计较成果炫夸出一种爽朗的腾贵，也即是200万好意思元的账单云尔。

PpL = 15# unprincipled estimate

defeps_variants -> int:

return4 * 6 * PpL * TPE * sum(M(d) for d in D)

'''

>>> f'{eps_variants:.3E}';cost_of_run(eps_variants)

'7.988E+23'

(1902022.3291813303， 79250.93038255542)

'''

除了图6左侧的折线图，还有附录F热力求的成果。

假定每个方块值都是经由13次学习率扫描后得到的成果，这部分计较量则为：

成果发现，只是要得到这8张热力求，老本即是320万好意思元。况且，由于咱们将LR扫描数目建模为常数13，这个数字可能低于施行老本。

defeps_heatmaps -> int:

# eps-type * eps-val * parameterizations * LR range * ...

return2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:])

'''

>>> f'{eps_heatmaps:.3E}';cost_of_run(eps_heatmaps)

'1.341E+24'

(3193533.466348094， 133063.89443117057)

'''

权重衰减

权重衰减实验（附录G）比较好融合，对4×参数化决策以及系数参数进行一次基本的LR扫描：

比epsilon实验低廉不少，也即是湾区工程师一年的工资——31.7万好意思元。

defweight_decay -> int:

return4 * PpL * TPE * sum(M(d) for d in D)

'''

>>> f'{weight_decay:.3E}'; cost_of_run(weight_decay)

'1.331E+23'

(317003.7215302217， 13208.488397092571)

'''

Adafactor优化器

这部分实验在附录C3中有详确形容，是为了考研Adafactor和Adam+parameter scaling是否有相通的宽度缩放机制。

共有2×4张图，其中每个优化器汇注11个数据点，因此计较公式为：

账单上再加18.8万好意思元。

defadafactor -> int:

return2*2*4*PpL*TPE*sum(M(d) for d in D[:11])

'''

>>> f'{adafactor:.3E}'; cost_of_run(adafactor)

'7.918E+22'

(188532.80765144504， 7855.533652143543)

'''

计较最优化

论文尝试更变注眼力头H的数目，但愿找到计较最优化的建造，但其中波及步长和数据集的更变，因此这部分不使用公式形容，计较代码如下：

defP(d: int， L=8， V=32101) -> int:

return2 * d * (6*L*d + V)

defcompute_optimal:

indices_50k = (14， 14， 12)

return4*PpL*sum([

TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k)，

20 * sum(P(d)*M(d) for d in D[:11]) *3，

])

# compute_optim 7.518E+23 (1790104.1799513847， 74587.67416464102)

精采

将以上各部分实验的算力和老本汇总在沿路：

alignment 3.733E+20 (888.81395400704， 37.033914750293334)

table_e1 1.634E+23 (388955.9991064986， 16206.499962770775)

eps_variants 7.988E+23 (1902022.3291813303， 79250.93038255542)

eps_heatmaps 1.341E+24 (3193533.466348094， 133063.89443117057)

beta_only 7.988E+23 (1902022.3291813303， 79250.93038255542)

gamma_expts 1.354E+24 (3224397.534237257， 134349.8972598857)

weight_decay 1.331E+23 (317003.7215302217， 13208.488397092571)

adafactor 7.918E+22 (188532.80765144504， 7855.533652143543)

compute_optim 7.518E+23 (1790104.1799513847， 74587.67416464102)

成果发现，整篇论文的运算量为5.42e24 FLOPS。

这个数字只是是Llama 3教师计较量的15%，淌若在10万卡H100集群上开动，只需要2天时辰即可完成系数实验。

total_flops=5.421E+24

rental price: US$12.9M

h100 node months required: 746.9595590938408

(sanity check) D=[128， 256， 512， 768， 1024， 1536， 2048， 2560， 3072， 4096， 6144， 8192， 12288， 16384]

(sanity check) modelsizes: ['0.00979B'， '0.0227B'， '0.058B'， '0.106B'， '0.166B'， '0.325B'， '0.534B'， '0.794B'， '1.1B'， '1.87B'， '4.02B'， '6.97B'， '15.3B'， '26.8B']

(sanity check) M/6P: ['63.4%'， '68.5%'， '75.3%'， '79.7%'， '82.8%'， '86.8%'， '89.3%'， '91.0%'， '92.2%'， '93.9%'， '95.7%'， '96.7%'， '97.7%'， '98.3%']

然而，淌若不从LLM预教师的规范来臆想，仅把DeepMind的这篇论文看作念一篇学术相关，这个计较量就显得相称奢侈了。

淌若实验室仅有10张H100，就压根不成能进行这个量级的相关。

有100张H100的大型实验室free_porn_video，未必能用几年时辰跑完以上系数实验。

上一篇：苍井空全集百度影音 SolidJS: 已往派JavaScript UI库的纠正之旅

下一篇：【PAP-29】定年を迎えた夫婦の性生活 4時間×4編</a>2012-02-28ルビー&$熟年241分钟艺聚中俄，情满友谊——中俄友谊之夜专场献技圆满举行

栏目分类

相关资讯

伪娘拳交点名通报、惩处到东说念主，对违章补课就要动真格
点名通报、惩处到东说念主！伪娘拳交近日，训导部印发《查处中小学违章办学行径典型案例》的告知，点名通报了多地多起案例。...
苍井空全集百度影音十年了，“寰宇那么大”该如何“去望望”
2015年4月13日，当河南省实验中学女西席顾少强写出“寰宇那么大苍井空全集百度影音，我念念去望望”的辞职信时，她简略未...
av 巨乳闻名女星喊话粉丝: 不要嫌弃我
文娱圈再出新瓜av 巨乳，令东谈主窘态！闻名演员胡连馨在外交平台喊话粉丝：我方要去某部剧串戏，让粉丝不要嫌弃她，被网友...
正太男同朱门弃妇到顶级单亲妈! 梁洛施晒子母日常, 三个
母亲节刚过，明星姆妈们纷纷在应付平台晒出和孩子的互动正太男同，其中梁洛施的动态格外引东谈主小心。5 月 11 日，许久...
苍井空全集百度影音 4月22日运转大喜天降, 财富如雨, 招
导语：在生存的长河中，咱们齐渴慕财富与好运的驾临。而在4月22日这个绝顶的期间，仿佛有一种机要的力量苍井空全集百度影音，...