芒果TV商品用意识别top3思绪分享 (芒果TV商品今日兑换已达上限)
本文目录导航:
芒果TV商品用意识别top3思绪分享
主办方提供了商品称号和用户query数据供选手启动模型训练,宿愿选手能够设计出一套高效、精准的商品用意识别模型,以协助优化电商搜查的成果,改善顾客的购置体验。
其中提供了两份数据,一个是goods_是商品称号数据,一个是query_是用户query数据,共条
前期咱们做的尝试比拟多,前面差不多烂尾了,庆幸b榜还在第一页,上方引见下咱们队伍的较量思绪。
由于本赛题数据分类一个品质比拟高的goods数据,一个是用户场景下的query数据(相对有噪音),前期咱们尝试独自训练goods或许query数据成果不是很好,goods数据容易过拟合,query数据比拟难收敛, 后续试验咱们选用将两份数据启动兼并训练,成果获取显著优化。
文本长度统计如下:商品称号数据中 文本字符长度最大为39,最小为6。
咱们在训练当选用了笼罩绝大局部数据长度的大小26,其他没有做过多尝试。
由于本赛题的样本的标签散布不平衡,咱们驳回多折分层采样的模式启动划分训练集,而后输入到模型启动训练,间接驳回sklearn的StratifiedKFold
由于Bert等预训练模型变体成果要好于传统NLP建模方法,咱们一开局试验是从预训练模型开局建模的,对比了几个模型变体之间的成果,其中本次较量给出的baseline ernie模型成果比拟好,尝试了开明的ernie3.0成果不如1.0;其次nezha 成果和chinese-roberta-wwm也不错。
咱们尝试了一些NLP训练优化方法,
为了防止模型颤抖,咱们关键依赖线下cv分数以及a榜分数,对模型设置权重启动加权融合,详细融合模式如下:
其中preden1可以是模型融合的结果,而后基于它的分数再去调配其他两个单模的分数
本次较量数据由于长度比拟短以及粒度为实体名词级别的,ernie成果比拟好,确实是异常之喜。由于期间疑问有些想法还是没有去做尝试,关键有:
宿愿其他前排大佬可以多多交换
关于搜查中用意识别的若干讨论
本文围绕搜查中用意识别这一外围话题,从引子、用意体系构建、用意分类方法、下游运行到结语,片面讨论了这一技术在搜查引擎中的作用和成功战略。
首先,引子局部简明引见了搜查环节中的基本流程,从最粗陋的召回阶段到排序阶段,最后引出用意识别在查问了解模块中的关键性。
强调了用意识别不能孤立了解,须要联合下游运行和详细业务场景启动深化讨论。
接着,用意体系局部,从Andrei Broder的用意三分法到Google的Do-Know-Go体系及其拓展,再到用意体系设计的倡导,详细解释了如何构建实用于不同业务场景和基于技术成功的用意分类体系。
在用意分类方法方面,文章辨别了常常出现的文本分类和文本相似度计算两种方法,并罗列了传统机器学习方法和深度学习方法的模型选用。
同时,引见了用意识别作为搜查链路中的模块应具有的规定、战略、模型和可干预机制,并讨论了如何依据查问的高频和长尾个性采取不同的解决战略。
关于用意识别的样本构建,文章提出了在工业场景下构建带标注样本的方法,强调了样本结构的效率疑问,并提出候选样本圈选、人工标注、数据增强等战略以优化流程。
最后,文章总结了用意识别的下游运行,包含对召回、排序和其他配置的允许,并激励读者依据详细需求补充和裁减运行畛域。
全文从通常到通常,系统地论述了搜查中用意识别的原理、方法、运行和设计考量,为算法工程师了解这一畛域提供了片面的视角和深化的见地。
做期货主力的用意有哪些?怎样识别?
要剖析主力意向,其实也是从这几个方面去剖析的:成交量,持仓量和多少钱变动相关。
撑持压力区。
首先:细心剖析成交量、持仓量、多少钱三者相关是很有必要的。
分了四种可明白的状况: 1 成交量回升(标明成交生动) 持仓量回升(标明资金入场踊跃)多少钱向上推进(标明多头踊跃开仓,推进多少钱下跌)可做多 2 成交量萎缩 持仓量降低(标明资金出场) 若此时多少钱下跌(标明多方踊跃平仓离场)可做空 3 成交量回升 持仓量也回升 多少钱下跌 (标明空头开仓踊跃)可做空 4 成交量降低 持仓量也降低 多少钱回升 (标明空头踊跃平仓)可做多 其次:撑持压力区的寻觅方法如下:关键还是从图形上 从视觉上观察进去前期的高下点 1 假设好几个高点基本平齐 或许好几个低点基本平齐,那就是关键的撑持压力位 2 假设是一个高点或低点,也是撑持压力位,可是就没有好几个高下点组成的撑持压力位那么有效。
撑持压力的点位没有那么精准,基本上可以说是一个区域 宿愿对你有协助
文章评论