【インタビュー】テンセントソーシャル広告大学アルゴリズムコンテストの第1週の優勝者 、グオ・ダヤは、経験と心を共有しています
激しい戦いの1週間後
テンセントのソーシャル広告大学アルゴリズムコンテストは、最初の週のチャンピオンを作成しました
彼の名前はグオ・ダヤです
静かな小さな男の子
低い実力派、おめでとうございます
Xiao編集長は、私たちのZhouチャンピオンのクラスメートとの短いインタビューを行いました
そして、この共有は、次の記事です
.....
こんにちは、グオ・ダヤです。 現在、和歌山大学データサイエンス・コンピュータ学部に在籍し、コンピュータサイエンスとテクノロジーの3年生です。 今日は、ゲームの経験と経験を共有する機会を与え、光栄に思います。
この種のレースは、今年の3月に始まったばかりで、カグルのTwo-sigma Connectをランキングとして作る必要があるコースがあり、2ヶ月の努力の後、最終的にトップ2%を獲得し、同時に、私はこの種のゲームを楽しんだ。 2ヶ月のコンテスト経験で、テンセントのソーシャル広告大学アルゴリズムコンテストで1週間優勝しました。
次に、このコンテストで私が考えたアイデアと、それを行う方法について説明します。
1、オンラインとオフラインの一致
おそらく、誰もがオンラインとオフラインについてあまり知らないので、ここで説明します。 ダウンラインスコアは、通常、クロス検証(CV)を行うローカルランニングのスコアを指し、このレースは時系列性のためにトレーニングセットを時間的に分割することができます。 オンラインの成績は、あなたが提出した成績です。
この種のゲームでは、まず CV とオンラインのスコアに大差を付け、次に CV とオンラインのスコアを加算および減算する必要があります。 それ以外の場合、CV は特性の良し悪しをまったく反映しないので、後で行う作業は無駄です。 CVとオンラインのスコアを同期するために、私は2日間これをしました。
2、トレーニング時間を短縮します
このコンテストでは、誰もが気にする一つのことは、自分のコンピュータが十分ではなく、実行しないです。 しかし、データセットを縮小したり、データ量の 1% をトレーニングしたり、コードを最適化したり、トレーニングをバッチで入力したりするなど、この問題を解決する方法は多数あります。 初日に提出したスコアは0.0985で、データ量、シングルスレッド、4Gメモリの10分の1で実行されました。 テストを行うとき、すべてのデータを使用してテストする必要はないです。
3、良い特性プロジェクトを行います
「特徴が上限を決定し、モデルが無限にその上限に近づいている」という文があります。 「この種のレースは、良いランキングを取得する場合は、最初に機能エンジニアリングを行い、良い特性を見つけることは、はるかに改善することができます。 初日に提出されたスコア 0.0985 では、XGB と自分で構築した機能を使用しました。 XGB の良し悪しはよく分かっていますが、現時点では XGB を使用して、自分で構築した機能を検証しています。 特徴工学については、one-hotコーディングや統計を行うことができますが、構造の特徴をモデルに入れるたびに実行しないでください、これは時間の無駄であり、実際には、特性の良し悪しの程度は、単にgroupby('feature'、'label')を介して特徴の良し悪しを見ることができる、特定の特性が異なる値で、0と1の比率と平均比率が大きく異なる場合、この特性は有効です。 または、分散を見て、特性の良し悪しをテストする時間を節約できます。
4、成績を上げる可能性のある機会を逃しません
おそらく最も頭痛の種の一つは、特定の特性ラインの下にloglossを追加することは、多くのドロップですが、オンラインですlogloss代わりに上昇しました。 このようなことに遭遇したとき、私たちはこの特性を直接放棄するのではなく、それを最大限に活用しました。 我々は2つのことを考える:
1. この特性は、現在を予測するために将来のデータを使用するなど、情報漏えいではありません。 同様の特性を再構築して時間を回避することができます。
2.テストセットは、そのような特性を持っていないではありません。 たとえば、トレーニング セットにはクリック時間より前の app_action のデータが使用されますが、トレーニング セットにはその日の action 情報があり、テスト セットにはその日の action 情報はありません。 したがって、トレーニング セットは、テスト セットにないような特性を持ちます。
最後に、私はすべての良い結果をお祈りします。
終わりだ
詳細については、イベントの公式サイト(http://algo.tpai.qq.com
コンテストの応募チャネル: http://algo.tpai.qq.com/person/mobile/index
もちろん、登録方法:
一言も言わないで贈り物を贈るアルゴリズムコンテスト公式WeChat:TSA-Contest
プレゼントが多すぎる子供の靴が怖いので、ご注意下さください
クリックして全文を読み、今すぐ参加してください
「発見」-「見る」に移動し、「友人が見ている」を参照します。