得物日常AIGC算法实习面试题6道含解析

日期：2024-12-05 浏览：　

　　Whisper是OpenAI公司开发的一种语音识别系统，主要包含以下几个方面：

　　1. 数据收集：Whisper使用大量的语音数据进行训练。这些数据包括各种语言、口音、说话速度和背景噪声等不同情况下的语音样本。

　　2. 特征提取：语音信号是通过麦克风采集的连续波形信号。Whisper首先将这些信号转换为频谱图，然后使用一种称为Mel频率倒谱系数（MFCC）的特征提取方法，将频谱图转换为一系列特征向量。

　　3. 模型训练：Whisper使用深度神经网络（DNN）进行语音识别。训练过程中，Whisper将特征向量作为输入，将其与对应的文本标签进行匹配。通过反向传播算法，不断调整神经网络的权重和偏置，使得模型能够更准确地预测语音对应的文本。

　　4. 解码和后处理：在识别阶段，Whisper使用一种称为CTC（Connectionist Temporal Classification）的解码算法，将神经网络输出的概率分布映射到最可能的文本序列。然后，通过一些后处理技术，如语言模型和拼写纠错，进一步提高识别准确率。

　　总的来说，Whisper的原理是通过深度学习技术，将语音信号转换为特征向量，并使用神经网络进行训练和预测，最终实现准确的语音识别。

　　缩放点积注意力机制是 Transformer 模型中的核心组成部分之一，用于计算输入序列中每个位置的注意力权重。在注意力机制中，给定查询向量、键向量和值向量，通过计算查询与键的相似度，并将相似度进行归一化，最终得到每个位置的注意力权重。缩放点积注意力机制引入了一个缩放因子，用于缩放相似度，以避免在计算softmax时出现数值不稳定的情况。这样可以更好地控制注意力分布，使得模型更容易学习到有效的语言表示。

　　阶段1：利用人类的问答数据去对GPT3进行有监督训练出SFT模型(作为baseline)；

　　步骤 1：对基于监督学习获取的 GPT-3.5 模型进行微调，得到 SFT 模型。微调是使用问题/答案对完成的。首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5 模型，通过对输入和输出数据的拟合来改进网络，调整模型的参数。此时的 SFT 模型在遵循指令/对话方面已经优于 GPT-3，但不一定符合人类偏好。

　　步骤 2：标注排序数据集，训练奖励模型 RM：这个阶段的主要是通过人工标注训练数据，来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。RM 模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高；

　　步骤 3：使用强化学习方法 PPO 进一步微调 SFT：PPO 的核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为 Importance Sampling。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题，使用 PPO 模型生成回答，并用上一阶段训练好的 RM 模型给出质量分数。把回报分数依次传递，由此星空体育登录入口星空体育在线官网产生策略梯度，通过强化学习的方式以更新 PPO 模型参数；

　　其中，步骤 1 只进行一次，步骤 2 和步骤 3 可以进行多次迭代以得到效果更好 RM 和 SFT 模型。

　　快速选择（Quick Select）算法，它类似于快速排序算法，但不需要完全排序整个数组。这个算法的平均时星空体育登录入口星空体育在线官网间复杂度为 O(n)，其中 n 是数组的长度。

星空体育·(StarSky Sports)官方网站-星空官方认证

得物日常AIGC算法实习面试题6道含解析