永信贵宾会·(中国区)官方网站,永信贵宾会,永信贵宾会登录入口,永信国际贵宾介绍,永信贵宾会最新地址
金融界2024年10月18日消息,国家知识产权局㊣信✅息显示,华为技术有限公司申请一项名为“用于训练决策模型的方法、装置、设备、介质和程序产品”的专利,公开号CN 118780387 A,申请日期为㊣2023年4月阿婆的书。
专利摘要显示,本公开的实施例提供了用于训练决策模型的方法、设备、装置、介质✅㊣和程序㊣产㊣品,涉及计算机领域。该方㊣法包括:基于训练数据,利用决策模型中的监督学习模型确定第一策略并且利用决策模型中的强化学习模型确定第二策略。方法还包括基于第一策略与第二策略之间的差异,确定模仿学习损失方法还包括基于模仿学习损失和与第二策略对应的强化学习损失,训练该决策模型。以此方式,基于模仿学习损失✅和强化学习损失两者,可以结合监督学习利用专家数据的能力和强化学习泛化性强的特点,从而训练得到性能优异且类人的决策模型。在一些实施例中,根据本公开的方案,可以训练得㊣到应用于自动驾驶领域的决策模型贷款,以提供诸如换道等策略。