Entrevista: Tencent Social Advertising University Algorithm Competition semana tres semanas campeón - al final en la experiencia y experiencia del equipo para compartir
Después de otra semana de intensa e intensa competencia
La competencia de algoritmos universitarios de publicidad social de Tencent produjo la tercera semana del campeonato
Su nombre es "El Equipo Correcto".
Este es un equipo de dos chicas y un niño
Se llama el efecto de emparejamiento de los dobles de hombres y mujeres
La verdad es siempre verdad
El editor en jefe tuvo una breve entrevista con nuestros compañeros de clase campeones de Zhou
Así que hay la siguiente parte
.....
Tengo que decir unas palabras más aquí
Dos pequeñas mujeres hermosas no pueden ver
El redactor jefe no está satisfecho
Así que voy a poner un huevo al final
Hay una sorpresa en la parte inferior.
Hola a todos, somos el equipo adecuado, soy un pequeño apodo, los otros dos jugadores son pfllo y zjm, somos estudiantes graduados en la Universidad de Pekín. Los miembros de nuestro equipo no han participado en competiciones similares antes, por lo que completamente inexpertos, participar en el proceso del juego también es accidentado, este tiempo puede tener suerte de ganar una semana de campeonato es realmente muy feliz.
Para que coincida con pfllo, tomamos una foto de equipo invisible.
Entrando en el tema, nuestros ganadores del corazón de carrera deben tener los siguientes aspectos:
Aspectos de los datos
Pasamos mucho tiempo en la construcción del conjunto de datos por adelantado. Por un lado, probamos algunas estrategias de limpieza de datos, el conjunto de datos obviamente no se han eliminado datos fiables, por otro lado, también tratamos de utilizar sólo unos días como un conjunto de datos, pero encontramos que es mejor utilizar el conjunto completo, puede no ser particularmente relevante para la cantidad de datos en la primera carrera. En cuanto a la división de la validación, seleccionamos aleatoriamente el 10% del conjunto de datos como validación. Dado que hay algunas diferencias en el log-pérdida del conjunto de validación producido por diferentes semillas de números aleatorios, también probamos algunas semillas de números aleatorios para hacer que la brecha entre las líneas y la línea sea lo más pequeña posible.
2, ingeniería de características
Comenzamos agregando todas las características iniciales, y muchas de las características que pensamos que podrían funcionar, en el modelo. Luego comenzó a luchar para ajustar los parámetros, con la esperanza de que se puede utilizar el modelo "inteligente" para encontrar las características, datos entre la relación implícita. Pero después de un período de estado de "sin progreso, sin retirada", pero también miramos la experiencia de los grandes para compartir, decidimos examinar cuidadosamente cada conjunto de características, y aprender activamente del pensamiento de los grandes.
(1) Características inútiles: Si hay una fuerte correlación entre las entidades causará interferencias en el modelo. Debe controlar las variables para conservar las características más eficaces y optimizadas. Estamos utilizando eliminaciones uno por uno para comparar experimentos para verificar la validez de las características.
(2) Mira más la experiencia del juego, los artículos relacionados: pararse sobre los hombros de los gigantes para analizar los problemas, a menudo puede hacer más con menos. Hemos aprendido de la experiencia de las estimaciones de CTR y otras competiciones relacionadas, hace referencia a las competiciones anteriores de Kaggle para compartir, pero también examinamos el código de equipo ganador relevante, se benefició enormemente. Los detalles que deben tenerse en cuenta al agregar entidades se vuelven más claros.
(3) Datos de observación, de acuerdo con las condiciones locales para encontrar características: la construcción de la ingeniería de características debe conectarse estrechamente con las características de los datos. Para determinar si una entidad tiene sentido, no puede simplemente pensar en ella y hacer análisis estadístico. Podemos ver la proporción de una característica en diferentes etiquetas, si hay alguna circunstancia especial que tendrá un gran impacto en la conversión, si la proporción de esta situación es grande, si hay una necesidad de añadir características ... Esta serie de problemas requiere la observación de los datos y un análisis estadístico adecuado.
3, entrenamiento
Creo que muchas personas se han encontrado con el problema de la dimensión es demasiado grande cuando la dimensión es demasiado grande para explotar, somos iguales, por lo que el uso de codificación escasa. Teniendo en cuenta la gran cantidad de datos, también pasamos tiempo trabajando en mejoras de velocidad, como la configuración paralela de xgboost. Los datos tardíos son más grandes y se recomienda implementar un método de entrenamiento más eficaz desde el principio, de modo que pueda iterar rápidamente para ver los resultados de los vínculos más críticos.
Por último, les deseo buenos resultados.
Terminar.
Para obtener más información, visite el sitio web oficial del evento en http://algo.tpai.qq.com
Canales de participación en el concurso: http://algo.tpai.qq.com /person/mobile/index
Por supuesto, hay:
El concurso oficial WeChat del algoritmo para dar regalos cuando no encaja: TSA-Contest
Zapatos de niños que tienen miedo de demasiados regalos, por favor presten atención a ellos
Haga clic para leer el artículo completo e introducir ahora
Ir a "Descubrimiento" - "Echa un vistazo" navegar "Amigos están viendo"