课程日历

大型语言模型的行为

2023年1月3日

引言: 讲座

Percy Liang

为什么存在这门课程？
语言模型
课程概述

2023年1月5日

能力: 讲座讨论

Percy Liang

适应框架
困惑度
提示
GPT-3任务的概述

讨论论文：

关于基础模型的机遇与风险（第1节，不包括1.4节）。

2023年1月10日

危害I: 讲座讨论

Rishi Bommasani

性能差异
社会偏见和刻板印象

讨论论文：

关于随机鹦鹉的危险：语言模型可以太大了吗？🦜

2023年1月12日

危害II: 讲座讨论

Percy Liang

毒性
虚假信息

讨论论文：

RealToxicityPrompts：评估语言模型中的神经毒性退化

大型语言模型背后的数据

2023年1月19日

数据: 讲座讨论

Percy Liang

对现有数据集的审查
数据文档
数据生态系统

讨论论文：

The Pile：一个800GB多样文本数据集，用于语言建模

2023年1月24日

安全与隐私: 讲座讨论

Tatsunori Hashimoto

数据污染
差分隐私

讨论论文：

从大型语言模型中提取训练数据

2023年1月26日

法律考虑: 讲座讨论

Percy Liang

版权法
公平使用

讨论论文：

公平学习

构建大型语言模型

2023年1月31日

建模: 讲座讨论

Percy Liang

分词
RNNs, Transformers

讨论论文：

Transformer-XL：超越固定长度上下文的注意语言模型

2023年2月2日

训练: 讲座讨论

Percy Liang

目标函数
稳定性
调试

讨论论文：

ELECTRA：将文本编码器作为判别器而非生成器进行预训练

2023年2月7日

并行主义: 讲座讨论

Christopher Ré

数据并行主义
模型并行主义
管道并行主义

讨论论文：

DeepSpeed：为每个人实现极端规模模型训练

2023年2月9日

扩展定律: 讲座讨论

Tatsunori Hashimoto

扩展定律

讨论论文：

神经语言模型的扩展定律

2023年2月14日

模块化架构: 讲座讨论

Percy Liang

专家混合
记忆增强（检索）模型

讨论论文：

为知识密集型NLP任务提供检索增强生成

2023年2月16日

适应: 讲座讨论

Sang Michael Xie

探测
微调
轻量级微调

讨论论文：

参数高效提示调整的力量

2023年2月23日

环境影响: 讲座讨论

Percy Liang

训练和推理成本
碳排放

讨论论文：

大型神经网络训练的碳排放

超越大型语言模型

2023年2月28日

嘉宾讲座: 讲座讨论

Maxwell Nye

2023年3月2日

嘉宾讲座: 讲座讨论

Margaret Mitchell 和 Stella Biderman

2023年3月7日

项目展示: 学生展示

2023年3月9日

项目展示: 学生展示