大型语言模型
Large Language Models
课程概述
- 领域:自然语言处理(NLP)
- 核心:大规模预训练语言模型(Large-scale Pre-trained Language Models, LLMs)
- 目标:深入理解LLMs的建模、理论、伦理和系统方面,并提供实践经验。
主要内容
- 建模与理论:
- 学习LLMs的基本概念和工作原理。
- 探索如何通过预训练和微调来提高模型性能。
- 伦理考量:
- 讨论LLMs在伦理方面的挑战,包括偏见、隐私和透明度问题。
- 学习如何设计和实施伦理框架来应对这些挑战。
- 系统挑战:
- 分析LLMs面临的可扩展性问题,包括资源消耗和计算需求。
- 探索如何通过技术创新来解决这些挑战。
- 实践经验:
- 通过实验和项目,让学生有机会直接与LLMs交互。
- 学习如何构建、训练和评估LLMs。
课程目标
- 知识掌握:理解LLMs的工作原理和它们在NLP领域的重要性。
- 伦理意识:认识到LLMs在实际应用中可能遇到的伦理问题,并学会如何妥善处理。
- 技术能力:具备使用和改进LLMs的基本技能。
- 创新思维:鼓励学生探索LLMs的新应用和改进方法。
课程价值
- 学术价值:为学生提供深入理解LLMs的机会,为未来的学术研究或职业发展打下坚实基础。
- 实践价值:通过实验和项目,让学生获得宝贵的实践经验,增强解决实际问题的能力。
- 社会价值:培养学生的伦理意识,使他们能够在开发和使用LLMs时考虑到社会影响。
通过这个课程,学生将获得宝贵的知识和技能,为在快速发展的NLP领域中取得成功做好准备。如果你对LLMs有进一步的问题或需要帮助,请随时提问。
利用知识开源,对抗学识通胀。
课程安排梳理
课程地点和时间
- 地点:默认在200-002(历史角)进行面对面授课,前两周远程授课。
- 时间:周一和周三下午3:15至4:45(太平洋标准时间)。
课程链接和沟通
视频访问声明
- 课堂活动可能在Zoom录制,录像可通过Canvas访问,可能被其他斯坦福课程使用。
课程结构
成绩构成
- 论文评审和讨论(20%)
- 项目(2 x 40% = 80%)
论文评审和讨论
项目
- 项目1是关于评估语言模型。你将获得访问GPT-3等模型的权限,并被要求批判性地思考它们的能力与风险。你需要确定一个你想要更深入探索的焦点属性。
- 项目2是关于构建语言模型。你将获得一定的计算预算,允许你训练像BERT-base这样的模型,以更系统地评估、理解和改进你在项目1中确定的焦点属性的语言模型。
项目要求
- 1-2名学生小组。
- 清晰简洁的写作。
- 使用LaTeX、Word、Pages等排版,PDF提交。
项目提交
- 截止时间为晚上11:00,通过Gradescope提交。
- 逾期天数:最多3天无罚分,之后每天分数减少25%。
重新评分
- 评分错误可申请重新评分,需在成绩发布后一周内通过Gradescope提交。
提交作业
- 所有作业通过Gradescope提交,不要通过电子邮件。
- 逾期天数:每个作业最多d=2天逾期天数。
注意事项
- 确保所有小组成员在Gradescope上被选中。
- 提交部分工作总比不提交好。
以上是对课程安排的详细梳理,确保学生能够清晰了解课程要求和提交流程。如果需要进一步的帮助或有关于课程的具体问题,请随时提问。