极大的困恼,就我目前的测试而言,百万参数模型训练时的损失已经高达70%。 “而且,模型越大,损失也越大。到GPT4的水准,能损失到只剩千分之一不到。 “换句话说,如果要用这种方式训练GPT4,要消耗原本一千倍的算力资源!什么狗屁的死思考模型?将一万个小参数模型放一起,就类比人了?扯淡吧!” 克里斯听起来怨气颇深,自从卷耳智能科技的一百二十多项专利申请披露以