星空体育·(StarSky Sports)官方网站-星空官方认证

得物日常AIGC算法实习面试题6道含解析-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

得物日常AIGC算法实习面试题6道含解析

日期:2024-12-05 浏览: 

  Whisper是OpenAI公司开发的一种语音识别系统,主要包含以下几个方面:

  1. 数据收集:Whisper使用大量的语音数据进行训练。这些数据包括各种语言、口音、说话速度和背景噪声等不同情况下的语音样本。

  2. 特征提取:语音信号是通过麦克风采集的连续波形信号。Whisper首先将这些信号转换为频谱图,然后使用一种称为Mel频率倒谱系数(MFCC)的特征提取方法,将频谱图转换为一系列特征向量。

  3. 模型训练:Whisper使用深度神经网络(DNN)进行语音识别。训练过程中,Whisper将特征向量作为输入,将其与对应的文本标签进行匹配。通过反向传播算法,不断调整神经网络的权重和偏置,使得模型能够更准确地预测语音对应的文本。

  4. 解码和后处理:在识别阶段,Whisper使用一种称为CTC(Connectionist Temporal Classification)的解码算法,将神经网络输出的概率分布映射到最可能的文本序列。然后,通过一些后处理技术,如语言模型和拼写纠错,进一步提高识别准确率。

  总的来说,Whisper的原理是通过深度学习技术,将语音信号转换为特征向量,并使用神经网络进行训练和预测,最终实现准确的语音识别。

  缩放点积注意力机制是 Transformer 模型中的核心组成部分之一,用于计算输入序列中每个位置的注意力权重。 在注意力机制中,给定查询向量、键向量和值向量,通过计算查询与键的相似度,并将相似度进行归一化,最终得到每个位置的注意力权重。 缩放点积注意力机制引入了一个缩放因子,用于缩放相似度,以避免在计算softmax时出现数值不稳定的情况。 这样可以更好地控制注意力分布,使得模型更容易学习到有效的语言表示。

  阶段1:利用人类的问答数据去对GPT3进行有监督训练出SFT模型(作为baseline);

  步骤 1:对基于监督学习获取的 GPT-3.5 模型进行微调,得到 SFT 模型。 微调是使用问题/答案对完成的。首先会在数据集中随机抽取问题,由人类标注 人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5 模型, 通过对输入和输出数据的拟合来改进网络,调整模型的参数。此时的 SFT 模型 在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。

  步骤 2:标注排序数据集 ,训练奖励模型 RM:这个阶段的主要是通过人工 标注训练数据,来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成 的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑 给出排名顺序。这一过程类似于教练或老师辅导。接下来,使用这个排序结果数 据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM 模 型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参 数使得高质量回答的打分比低质量的打分要高;

  步骤 3:使用强化学习方法 PPO 进一步微调 SFT:PPO 的核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy,即将在线学习转化为 离线学习,这个转化过程被称之为 Importance Sampling。这一阶段利用第二阶 段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取 问题,使用 PPO 模型生成回答,并用上一阶段训练好的 RM 模型给出质量分数。把回报分数依次传递,由此星空体育登录入口 星空体育在线官网产生策略梯度,通过强化学习的方式以更新 PPO 模型参数;

  其中,步骤 1 只进行一次,步骤 2 和步骤 3 可以进行多次迭代以得到效果更 好 RM 和 SFT 模型。

  快速选择(Quick Select)算法,它类似于快速排序算法,但不需要完全排序整个数组。这个算法的平均时星空体育登录入口 星空体育在线官网间复杂度为 O(n),其中 n 是数组的长度。