预训练模型finetune使用思路

项目使用了预训练的bert模型进行文本分类

先说一下总体思路:

1.从官方的ckpt模型文件中加载模型,接一层全连接和激活函数,再接一层输出层即可,根据分类的类别选择输出层节点的个数。

2.构造模型后,冻结bert层,只训练后续接的分类层,保存模型,这一步可以不保存优化器状态,因为当前优化器中的状态只是构造了一个针对后面两层权重的目标函数,没有考虑bert层冻结的权重优化。

3.上一步训练结束之后,加载上一步保存的模型,解冻bert层,整个模型一起finetune,注意模型最好重新编译,这样可以重置优化器目标函数,才可以更新bert层的参数,否则如果上一步保存了优化器状态,你直接加载了模型,随后接着训练,则优化的还只是后面几层的权重。

总之,如果我们只是加载模型来预测,则不需要compile

如果是需要进行训练或评估,而且需要改变优化器状态,学习率,或者目标函数,那么需要compile,这里finetune就是改变了目标函数,所以需要compile
如果没有指标需要改变,加载后继续训练就好,无需compile。

原文链接: https://www.cnblogs.com/lxzbky/p/15645130.html

欢迎关注

微信关注下方公众号,第一时间获取干货硬货;公众号内回复【pdf】免费获取数百本计算机经典书籍;

也有高质量的技术群,里面有嵌入式、搜广推等BAT大佬

    预训练模型finetune使用思路

原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/399925

非原创文章文中已经注明原地址,如有侵权,联系删除

关注公众号【高性能架构探索】,第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处!

(0)
上一篇 2023年4月14日 上午9:38
下一篇 2023年4月14日 上午9:38

相关推荐