Andrej Karpathy,这位技术界的大神,以其卓越的编程能力和对深度学习的贡献闻名。最近,他再次证明了自己的实力,通过仅用20美元和90分钟的时间,成功复现了OpenAI的GPT-2模型,并且其性能在某些方面超越了原版。这一成就不仅令人印象深刻,也引发了社区的广泛关注和讨论。
Karpathy的复现过程使用了Ilm.c库,这是一个他不断优化和完善的代码库,使得训练过程变得异常简单。他所采用的网络结构虽然基于GPT-2,但在超参数设置上,却借鉴了GPT-3的策略。通过这种方式,Karpathy不仅复现了模型,还在训练数据上进行了创新,使用了新发布的FineWeb数据集,这比OpenAI原版的WebText数据集在token质量上有所提升。
此外,Karpathy还自费200美元复现了350M版本的GPT-2,并且取得了超越原版的成绩。尽管对于1.5B版本的GPT-2,由于时间和成本的考虑,他暂时没有进行尝试,但他的这一成就已经足够引起人们的关注。
社区成员也对Karpathy的工作给予了极大的支持。有人使用H100 GPU按照他的教程进行了训练,结果表明,使用H100不仅训练时间更短,成本也更低,仅需43分钟和14美元。
Karpathy的这一成就,不仅展示了个人的技术实力,也为深度学习社区提供了宝贵的经验和启示。他的工作方式和时间管理策略,也为自由职业者和研究者提供了新的视角。