世界头条:GPT-4 由 8 个 MoE 模型组成,真的吗?
(资料图)
让大家没想到的是,被传的神乎其神的GPT-4依旧是大力出奇迹的产物。回到ensemble的老路上去了,OpenAI一直在画的AGI的大饼感觉又离我们远了。
黑客 George Hotz 在一个播客中透露,GPT-4 是由 8 个 2200 亿参数的 MoE 模型组成的,每个模型都针对不同的数据和任务分布进行了训练,然后通过一些小技巧将它们混合起来。他还说,这样做是因为单个模型的参数规模已经达到了极限,而且训练时间越长效果越差,所以他们采用了多模型集成的方法来提高性能。他认为,OpenAI 对此保密的原因是不想让别人知道他们的模型并不是那么先进,只要花更多的钱就能复制。
这个说法得到了 PyTorch 创始人 Soumith Chintala 的认可2,他表示自己也听过类似的传闻,但只有 George Hotz 在公开场合说出来了。不过,也有人对这个说法表示怀疑或质疑134,认为这样的模型推理成本太高,而且没有充分利用 GPT-4 的潜力。目前,OpenAI 还没有对这个爆料做出任何回应或证实。
这件事情很可能是真的,理由如下:
已知的Prior:
1.多个信源认为GPT4比GPT3.5参数量大至少一个数量级,也就是1.7万亿以上。
2. OpenAI去年六月发表过技术报告说他们训练LLM用了MoE.
现在的观测:
有人说GPT4是一个1.76万亿参数的MoE
网友得知秘诀后,打算自己也要训练一个LLaMA集合体与GPT-4竞争。
上一篇:中考大幕开启 驻马店市19万余名考生迎人生首次大考|当前热点
下一篇:最后一页
-
世界头条:GPT-4 由 8 个 MoE 模型组成,真的吗?回到ensemble的老路上去了,OpenAI一直在画的AGI的大饼感觉又离我们远了。
-
中考大幕开启 驻马店市19万余名考生迎人生首次大考|当前热点考场上,考生们以笔为剑,一决高下,考场外,我市相关涉考单位全力做好
-
【全球播资讯】PET铜箔板块持续拉升PET铜箔板块持续拉升
-
热头条丨长沙雨花区骨干人才在哪里认定?长沙市雨花区块骨干人才,用E类指代,骨干人才认定全年接受申报,定期
-
世界观热点:2023滴滴抽成比例(滴滴平台怎么抽成)随着滴滴新政策的出台,因为双证和抽成的问题,现在很多滴滴司机都说平
X 关闭
资讯
X 关闭
聚焦