Entrevista: La primera publicidad social de Tencent "University Algorithm Competition" terminó con un maravilloso intercambio de la participación del equipo finalista
Introducción.
El 6 de julio, la primera publicidad social de Tencent "University Algorithm Competition" terminó oficialmente. Entre los muchos equipos participantes, el equipo de tres hombres de la Universidad de Nanjing, nju_newbie, ganó la final, con un premio de 300.000 yuanes. El segundo y tercer lugar en las finales pertenecen a Raymone y I'm Hard to Suffer, ambos formados por profesionales algorítmicos de universidades y colegios.
El título de este concurso de algoritmos es"Estimación de la tasa de conversión de anuncios de aplicaciones móviles", es decir, la probabilidad de activación después de hacer clic en un anuncio, dado el anuncio, el usuario y el contexto. En el pasado, la mayoría de los sistemas de anuncios estaban limitados por el flujo de retorno de los datos de rendimiento de los anuncios, y solo se podían optimizar mediante la exposición o el clic como medida de rendimiento. El pCVR, tasa de conversión prevista, basado en datos de conversión de anuncios, permite a los anunciantes optimizar el rendimiento y aumentar el retorno de la inversión en la clasificación de anuncios.
Desde la apertura oficial de la inscripción en línea el 12 de abril de este año, casi 18.000 concursantes han pasado por capas de proyección y competencia feroz, pero también en la competencia para intercambiar ideas entre sí, con el fin de conseguir la diversión de la optimización de algoritmos al mismo tiempo ganar valiosa experiencia práctica.
El proceso de campeonato "nju_newbie" de ganar el campeonato es legendario, el autoproclamado "rookie" en la etapa final de su rápida mejora de resultados, el ascenso del ejército, la ventaja se ha extendido hasta el final. Y son bastante humildes acerca de cómo su modelo algorítmico puede ganar. El segundo lugar del equipo de Raymone, con "limpieza de datos" como ACE, está doliente y feliz en el camino a verificar las características, desafiando constantemente el pasado. El nombre del equipo "I'm Hard" es un reflejo directo del estado competitivo de los concursantes en ciertos momentos. A pesar de que el modelo algorítmico traerá cuellos de botella, no puede detener la determinación de romper las dificultades y seguir adelante.
Es posible que desee utilizar las siguientes transcripciones de entrevista de los tres equipos para sentir el curso del algoritmo toros!
El equipo de nju_newbie
P1 ¿Puedo presentar a varios miembros del equipo?
Los tres miembros de nuestro equipo, Yang Yi, Liang Yu y Shen Shaofeng, son de la Universidad de Nanjing. La principal dirección de investigación de Yang Yi es nlp y sistema de recomendación, la dirección de investigación de Liang Yu es principalmente degradación de datos y reconocimiento de imágenes, la dirección de investigación de Shen Shaofeng es principalmente modelo de línea y aprendizaje integrado. En esta competencia, Liang Yu y Shen Shaofeng son los principales responsables de la ingeniería de características y la participación en la discusión modelo, Yang Yi es el principal responsable de la mejora e implementación de modelos.
P2 ¿Por qué se llama nju_newbie"?
El nombre consta de dos partes, "nju" y "newbie", de las cuales "nju" es la abreviatura de la Universidad de Nanjing, poner nju en frente es para expresar gratitud a la Universidad de Nanjing, "novato" es el significado del novato, en nombre de los grandes datos frente a nosotros son novatos, para aprender la tecnología en big data con un corazón de búsqueda de conocimiento, pero también para nuestro propio estímulo.
P3 ¿Por qué viniste a Tencent Social Advertising University Algorithm Competition?
Poder participar en el concurso de algoritmos universitarios de publicidad social de Tencent y ganar el premio en realidad tiene una gran oportunidad de ingredientes en él. Capitán Yang Yi al principio del juego sólo en el estudio del sistema de recomendación y la dirección de la tasa de clics del último artículo, desde el grupo para ver este juego, por lo que desea poner la tecnología más vanguardista en la aplicación práctica para medir el efecto, no esperaba lograr un resultado tan bueno. El miembro del equipo Shen Shaofeng está en la etapa de graduarse de la maestría, quiere probar su habilidad a través de la competencia, pero también ponerse en contacto con los datos de la industria, para la próxima carrera para construir una fundación. El miembro Liang Yu también tiene el propósito de la aplicación práctica de la teoría, la teoría y la práctica combinadas para profundizar la comprensión, con el fin de mejorarse a sí mismos.
Q4 Se dice que su rendimiento en la final ha estado mejorando rápidamente, y ganó la segunda semana de la última semana del campeonato, ¿cómo hacer que los resultados mejoren rápidamente?
En la primera carrera, no usamos un modelo de aprendizaje profundo, así como GBDT. Entrando en la rematación, debido al gran aumento en la cantidad de datos, el efecto del modelo de aprendizaje profundo también se ha mejorado considerablemente, más allá del mejor rendimiento del modelo GBDT en la competencia inicial, que es el mayor factor que nuestros resultados finales pueden mejorar. En segundo lugar, en la remath, excavamos varias características muy útiles e hicimos algunas optimizaciones a la estructura del modelo de aprendizaje profundo.
P5 ¿Qué dificultades se han encontrado en el juego y cómo se pueden superar?
Los problemas encontrados en el juego se pueden resumir como dificultades mentales y técnicas. La primera son las dificultades mentales, el equipo es muy bueno, cada día los resultados en la tabla de clasificación se mejorarán en gran medida, dando a la gente mucha presión, por otro lado, cada vez que se encuentran con cuellos de botella son el desafío para el espíritu, junto con una gran cantidad de datos, el proceso experimental es más aburrido, el espíritu también es una prueba. Ante estas dificultades mentales nos animaremos unos a otros, de vez en cuando saldremos juntos escalando montañas, comiendo, cantando para reducir el estrés. El segundo son las dificultades técnicas, el curso del juego inevitablemente se encontrará con una variedad de problemas técnicos. Con el fin de superar las dificultades, discutimos entre sí, consultamos documentos y materiales, y finalmente consultamos a los profesores.
El equipo de nju_newbie habla en nombre del segmento de defensa
P6 Describa brevemente sus ideas de resolución de problemas y aspectos destacados algorítmicos, y hable sobre la extracción de características, el establecimiento de modelos de entrenamiento y las ideas de formación de modelos.
La idea de todo el mundo de resolver el problema es más fácil.Nuestros pasos de resolución de problemas se dividen en cinco partes: preprocesamiento de datos, descodificación de datos, extracción de características, construcción de modelos y fusión de modelos.Debido al esquema de codificación de la tasa de conversión de características dispersas, la serie nffm de modelos en el modelo, y la solución de una serie de problemas de entrenamiento de modelos e implementación de modelos, podemos lograr buenos resultados. La extracción de características se divide en cuatro partes, a saber, la tasa de conversión, la función de clic, la función de instalación y la función de tiempo. En el modelo, utilizamos cuatro modelos diferentes, incluyendo un modelo GBDT tradicional, y otros tres modelos de aprendizaje profundo, a saber, la red de toda profundidad, la red pnn y la red nffm. El modelo GBDT que estamos usando lightgbm, y la red de gran profundidad, la red pnn y la red nffm son todas las cosas que hacemos nosotros mismos con tensorflow y tflearn, y es por eso que es muy interesante que podamos hacer mejoras de modelo y ajustes precisos.
P7 ¿Qué opina del contenido de esta competencia?
Esta vez el título es muy significativo, los datos que aplicamos son los valiosos datos reales de Tencent, que también son algunos en China. Estos datos son difíciles de obtener para los estudiantes, es sin duda un activo valioso. El objetivo de este concurso es la predicción de la tasa de conversión, que es más difícil que la previsión promedio de la tasa de clics, los datos de usuario más escasos y más factores que afectan a la tasa de conversión, que son desafíos para los concursantes.
Q8 ¿Cuál es la sensación más grande en el juego?
La mayor sensación es que la fuerza estudiantil de la industria informática de China se está haciendo cada vez más fuerte, y la competencia se está volviendo cada vez más feroz.
P9 ¿Qué experiencias o sugerencias tiene que compartir con los futuros estudiantes que participan en este tipo de concurso de algoritmos?
Compartir 3 bocadillos:
1) Perseverancia, y constantemente romper a través. El curso del juego es muy largo, si sólo un momento de pasión no puede conseguir la victoria final, encontrar dificultades debe cumplir.
2) No rompas, el valor de innovar. No se adhiera a los modelos y marcos existentes, debemos tener nuestro propio pensamiento, atrevernos a innovar.
3) Cree que estás lejos de alcanzar el límite. El proceso del juego es el proceso de mejora continua, no importa cuál sea la situación, debemos creer firmemente que hay margen de mejora, a menos que se alcance el nivel de corrección absoluta.
Equipo "Raymone"
P1 ¿Puedo presentar a varios miembros del equipo?
Nuestro equipo está formado por tres miembros, Li Wei, Li Qiang y Li Da, de Dalian Science and Technology y de la Universidad de Tsinghua, responsables del análisis de datos, preprocesamiento, extracción de características, diseño de modelos, fusión de modelos, entrenamiento de modelos y así sucesivamente.
Q2 ¿Por qué se llama Raymone?
Raymone es mi apodo QQ (Li Wei), los tres primeros de nosotros somos un equipo separado, cuando mi nombre de equipo fue seleccionado es mi nombre QQ, y luego dos se unieron directamente, el nombre del equipo continuará usando Raymone.
P3 ¿Por qué viniste a Tencent Social Advertising University Algorithm Competition?
Principalmente quieren comunicarse con los grandes a través del juego para aprender algo, pero también quieren aprovechar esta oportunidad para ponerse en contacto con algunas de las aplicaciones reales de la compañía de los datos. Por supuesto, más esperanza de que a través de jugar el juego para conseguir un buen lugar para el reclutamiento de otoño y pasantías para establecer la base.
P4 ¿Cómo te fue en toda la competencia? ¿Está satisfecho con su rendimiento?
La primera carrera fue la mejor época para terminar en segundo lugar, la primera carrera finalmente ocupó el puesto 13. La final se clasificó brevemente en primer lugar y terminó en segundo lugar. Estamos satisfechos con los resultados.
P5 ¿Qué dificultades se han encontrado en el juego y cómo se pueden superar?
Todavía había muchas dificultades en el juego. En resumen, hay dos puntos:
El primero es el problema de grandes cantidades de datos de remat.Creo que eso es lo que todos los equipos tienen que enfrentar. Debido a la gran cantidad de datos, filtramos el conjunto de entrenamiento y finalmente seleccionamos los datos de 26-30 para el conjunto de entrenamiento, y preprocesamos los datos del 30, filtrando la aplicación con un tiempo medio de retorno de conversión más largo. Además, el conjunto de validación de entrenamiento que utilizamos se divide por un método de validación cruzada del 50%. Aunque el conjunto de entrenamiento filtra una gran parte de los datos, pero el conjunto de datos del 50% de validación cruzada 26-30 todavía toma más de 6 horas (dimensión de característica 50 más), por lo que a menudo elegimos métodos de muestreo aleatorios antes de cambiar la lista b para verificar la validez de la característica, la proporción de muestreo es 0,3. Esto maximiza la productividad.
El segundo punto es sobre la extracción de característicasCreo que muchos equipos también se han encontrado con cuellos de botella. De hecho, la forma que elegimos es pensar más en el significado real del juego. El requisito de la pregunta es predecir la probabilidad de activación después de hacer clic en el anuncio, y si el usuario hace clic en el anuncio después de la activación de una fuerza motriz importante es si el usuario tiene la demanda del anuncio, así como la propia potencia de instalación del usuario, por lo que el clic del usuario, el historial de instalación y el historial de instalación de clics del usuario para una aplicación específica es particularmente importante. Basándonos en este pensamiento, construimos una serie de características con efectos significativos, incluyendo si el usuario tenía un registro de clics e instalaciones en el período de tiempo anterior, si el par usuario-aplicación había aparecido antes, cuántas veces había aparecido, el número de veces que el par usuario-aplicación había aparecido, y así sucesivamente. Además, la ubicación de los anuncios es particularmente importante. Diferentes espacios publicitarios recibieron diferente atención, el efecto de promoción también es diferente.
Basándonos en esto, exploramos varias características relacionadas con los espacios publicitarios, incluidas las características de la tasa de conversión, las características históricas de clics y algunas características de combinación de usuarios, aplicaciones y bits de anuncio. Además, muchas personas notan la importancia de las características de la tasa de conversión, pero muchas personas tienden a pasar por alto las características de la tasa de conversión del usuario. Es importante tener en cuenta que se requiere una clasificación adecuada al aprovechar las tasas de conversión de usuarios para evitar el ajuste.
El equipo de Raymone habló en nombre de la defensa
P6 Describa brevemente sus ideas de resolución de problemas y aspectos destacados algorítmicos, y hable sobre la extracción de características, el establecimiento de modelos de entrenamiento y las ideas de formación de modelos.
Nuestro marco de algoritmos es: limpieza de datos, división de datos, extracción de características, entrenamiento de modelos, fusión de modelos.
La limpieza de datos debe ser uno de nuestros aspectos más destacados.Debido a que los tiempos de retorno de conversión son largos y cortos, los últimos cinco días de etiqueta pueden ser inexactos, especialmente en el día 30. Si eliminas todos los datos del día 30, perderás mucha información útil, y si lo guardas todo, introducirás una cantidad considerable de ruido. Y descubrimos que el tiempo de contraflujo de conversión está relacionado con el identificador de la aplicación. Así que contamos el tiempo medio de devolución de conversión para cada identificador de aplicación y los datos eliminados que promediaron un largo tiempo de devolución de conversión en el día 30. Este tratamiento se traduce en una ligera mejora en el rendimiento.
Además, como se ha descrito anteriormente, también hemos llevado a cabo un análisis completo de las características. La minería completa del ID de posición y el análisis completo del historial de interacción del usuario nos han traído mejoras significativas. Además, hay una tasa de conversión con funciones cruzadas en la etapa posterior también se juega un cierto efecto.
Los datos se dividen en seccionesDebido a las condiciones de la máquina, utilizamos datos desde el día 26 hasta el día 30. Para la división de conjuntos de validación de conjuntos de entrenamiento, usamos una validación cruzada del 50%.
Pieza de extracción de operaciones, lo dividimos en cuatro categorías:
1) Características básicas, incluyendo las características básicas de los usuarios, las características básicas de la publicidad, las características del contexto;
2) Características estadísticas, transversales de las características básicas y luego estadísticas, incluyendo la operación de recuento y operación única;
3) Características relacionadas con el tiempo, principalmente contando el número de clics o instalaciones del usuario o de la aplicación de usuario en el período anterior;
4) Las características de estimación de probabilidad, muchas características de clase de ID, incluidas las características de clase de ID cruzado, hicieron una estimación de probabilidad.
Sección de formación de modelosComenzamos con LightGBM, que es muy rápido de entrenar y puede reducir en gran medida el tiempo en la verificación de la eficacia de las características. Nuestra fusión de modelos utiliza el enfoque de apilamiento. Además de LightGBM, entrenamos modelos FFM, LR, GBDT, et. Al final, el apilamiento nos ayudó a mejorar en unos 25.000 puntos.
P7 ¿Qué opina del contenido de esta competencia?
Este concurso se centra en los anuncios de aplicaciones móviles y predice la probabilidad de activación después de hacer clic en un anuncio, dado el anuncio, el usuario y el contexto. Las preguntas nos dan acceso a los datos en la escena real, y tienen un cierto grado de comprensión de la tasa de conversión click-through de los anuncios sociales, que es muy significativa.
Q8 ¿Cuál es la sensación más grande en el juego?
La sensación más grande en el juego es una palabra - cansado. El cansancio físico es sólo por un lado, más cansancio psicológico. Los resultados del día anterior no mejoraron, al día siguiente a las 12 del mediodía, cuando la clasificación definitivamente caerá. Se puede decir que está en una carrera contra el tiempo, casi todos los días en el dolor de analizar las características de construcción y verificación del juego, bajo la presión y el dolor de construir características de sin valor e incapaces de pensar en nuevas características y mejorar el rendimiento. Por supuesto, cada vez que los resultados del cuello de botella de ruptura mejoraron considerablemente, la emoción es indescriptible.
Todo el proceso del juego, desde el preliminar hasta el final, hasta la etapa de preparación de la defensa posterior al partido es muy estresante. Pero es la presión de los resultados en el transcurso del juego lo que nos mantiene sintiendo un sentido de urgencia, asegura el aprendizaje y la eficiencia, y por lo tanto crece mucho. Gracias también a la feroz competencia de los equipos, todos estamos en el progreso de la competencia.
P9 ¿Qué experiencias o sugerencias tiene que compartir con los futuros estudiantes que participan en este tipo de concurso de algoritmos?
A partir de los dos años anteriores para encontrar el concurso para hacer la competencia de este año, en los últimos años más y más competiciones nacionales, pero también muestra la importancia de las posiciones relacionadas con el aprendizaje automático de las empresas nacionales.Muchos estudiantes para participar en la competición es principalmente dos tipos, uno es aprender cosas, uno es tomar un bono, de hecho, si haces ambas cosas. Por lo tanto, se recomienda que los estudiantes en la competición tienen las condiciones para encontrar al viejo piloto para tomar la carretera, más en el grupo en la carrera con el gran hombre intercambiar aprendizaje, más para ver el resumen del campeón de la semana. También prestar atención a la importancia real del juego. En muchas competiciones se caracterizan por el rey, por lo que el significado práctico de la combinación múltiple del juego siempre profundizará en características muy útiles. Además, quiero saber más sobre el juego de Oyi para ver más kaggle, más para ver el código fuente abierto de los grandes.Mientras lo hagas en serio, aprenderás mucho de cada juego. También estamos con el juego y poco a poco crecemos, así que estoy muy feliz de comunicarme con todos los estudiantes aquí, espero que todos podamos obtener algo de la competencia de Tencent.
Equipo de "estoy muy triste"
P1 ¿Puedo presentar a varios miembros del equipo?
Hay tres miembros de nuestro equipo, a saber, Li Zhi, Li Qiang y Li Bo. Li Qiang es el líder del equipo, es de la Universidad Jilin, Li Zhi es de la Universidad de Aeronáutica y Astronáutica de Beijing, Li Bo es de la Universidad de Correos y Telecomunicaciones de Beijing. En la competencia, trabajamos juntos en cooperación con el entendimiento tácito, respectivamente, responsable del análisis de datos, la minería de características y todo el diseño del marco;
P2 ¿Por qué se llama "estoy tan triste"?
De hecho, el nombre ha estado en la competencia antes. El nombre se debe a que en el transcurso del juego, es muy fácil caer en un período de cuello de botella, viendo su clasificación ha estado cayendo, durante varios días sin mejorar es lo más difícil, y más tarde se encontró que el nombre también está en línea con nuestro estado, para participar en el juego, incómodo y feliz. Esperemos que en el próximo juego, estaremos en mejor y mejor forma.
P3 ¿Por qué viniste a Tencent Social Advertising University Algorithm Competition?
Tencent plataforma es buena, ricos bonos, atraerá a una gran cantidad de dioses algorítmicos para jugar, para que pueda competir con los grandes juntos. Y son estudiantes para participar en la competencia, la comunicación es más fluida, es una muy buena oportunidad de aprendizaje. Además, a través de la competencia, puede dejar que su propia fuerza sea reconocida por todos, muy bien. Jugué con mis compañeros antes del partido más tácitamente, teniendo en cuentaUno puede seguir aprendiendo, dos pueden obtener el canal verde de reclutamiento, tres también pueden tener una cosecha de bonificación, juntos para participar en la competencia.
P4 ¿Cómo te fue en toda la competencia? ¿Está satisfecho con su rendimiento?
Debido a que la competición está casi hasta la fase final, el tiempo es más tenso, por lo que finalmente conseguir el subcampeón se completa básicamente el gol. Pero el resultado de esta competición no ha alcanzado nuestro límite superior, aunque el rendimiento sigue siendo satisfactorio, pero creemos que podemos hacerlo mejor.
P5 ¿Qué dificultades se han encontrado en el juego y cómo se pueden superar?
A menudo experimentamos desbordamientos de memoria durante las carreras, y cada vez que vemos código corriendo toda la noche mostrando que estamos muy tristes, estamos constantemente optimizando el código para reducir la complejidad espacial. El juego a menudo se encontrará con el período de cuello de botella, en los resultados durante mucho tiempo no puede mejorar, a menudo es el momento más doloroso, este tiempo no debe darse por vencido, para creer en sí mismos y compañeros de equipo, calmarse a un buen análisis. Los cohetes a menudo despeten después de una serie de intentos.
Discurso de la sesión de defensa del representante del equipo "estoy muy triste"
P6 Describa brevemente sus ideas de resolución de problemas y aspectos destacados algorítmicos, y hable sobre la extracción de características, el establecimiento de modelos de entrenamiento y las ideas de formación de modelos.
El título de la competencia es el problema de la tasa de conversión de publicidad, lo convertimos en un problema de dos categorías. Definimos la tasa de conversión fuera del día de la aplicación y encontramos un equilibrio entre eliminar la escala de muestra incorrecta y conservar la escala de muestra para aprovechar al máximo los datos. En la extracción de características, extraemos características basadas en la comprensión del negocio y nuestra propia experiencia, y analizamos cada característica, como la correlación entre entidades, si hay un cambio significativo en la tasa de conversión bajo diferentes características. Usamos xgb, lgb, ffm como modelo final, en el modelo xgb, lgb usamos características continuas y entrenamiento de características de categoría, y en el modelo ffm usamos la salida del modelo xgb como entrada al modelo fffm, y finalmente los tres modelos se combinaron.
P7 ¿Qué opina del contenido de esta competencia?
Este tema de la competencia es muy versado en nuestra vida, porque a menudo utilizamos una variedad de aplicaciones, por lo que este tema en la vida es fácil de encontrar el escenario de la aplicación, y se puede descargar todo el proceso de activación de la aplicación para ensayar, con el fin de pensar en las preguntas del juego a nuestro análisis del contenido. Recuerdo a un equipo de finales que solicitaba específicamente a un anunciante para experimentar cómo se publicó el anuncio. Así que la sensación general para nosotros es que el juego es muy fuerte sentido de generación.
Q8 ¿Cuál es la sensación más grande en el juego?
La mayor sensación es que la competencia es muy competitiva y la presión es grande, pero al mismo tiempo también aprendió mucho. Nuestro espíritu de compartir del juego es muy suficiente, ha estado siguiendo a los diversos dioses para aprender, su propio nivel también ha mejorado mucho. En particular, la actitud y el servicio de los organizadores y el personal de enlace de la competición fueron muy buenos, y hemos sido pacientes en responder a nuestras preguntas y hemos trabajado muy duro durante la defensa de la final para dar a todo el personal un cumplido.
P9 ¿Qué experiencias o sugerencias tiene que compartir con los futuros estudiantes que participan en este tipo de concurso de algoritmos?
El papel tiene que ser superficial al final, nunca sabe cómo hacerlo. El aprendizaje automático y el análisis de datos son los mismos, no sólo en los libros, sino también en los concursos de proyectos reales.Al participar en la competición se puede aprender mientras compite, no necesariamente lo perfecto para prepararse para participar (de hecho, siempre hay algo que aprender). Todo el mundo en la competencia debe despejar la forma de pensar, especialmente la comprensión del juego y la extracción de características, todo el juego en un módulo, cada parte de la eficiente, mejorada es más conveniente. Además, el tiempo debe asignarse razonablemente, especialmente la disposición de la extracción de características y la fusión del modelo. Por último, creo que lo más importante es resumir en el tiempo, tomar notas, ya sean notas de origen o notas de principios algorítmicos, la promoción es muy grande, podemos intentarlo.¡Les deseo buenos resultados en futuras competiciones!
El primer Concurso de Algoritmos de la Universidad de Publicidad Social tencent se despedirá de ti
¡Esperamos reunirnos con los estudiantes para la próxima sesión!
¡Estamos esperando aquí por el mejor you!!
Deseo a los estudiantes otro éxito el próximo año!!!
Ir a "Descubrimiento" - "Echa un vistazo" navegar "Amigos están viendo"