【インタビュー】テンセント・ソーシャル・アドウェア・アカデミア・アルゴリズム・コンペティション 決勝第1週の優勝者、Three Idiotsコンテストの経験と心が共有されました
これは、テンセントのソーシャル広告大学アルゴリズムコンテストの最終段階です
最初の週のチャンピオンによって生成されます
彼らの名前はと呼ばれるThreeIdiots
と言われているThreeIdiots謎の存在です
誰もが彼らが神聖である場所を推測しています
助けることはできませんが、事前にキーワードを明らかにする
控えめで、控えめで、少しハンサムです
実力のある3人の大きな男の子、おめでとうございます
Xiao編集長は、私たちのZhouチャンピオンのクラスメートとの短いインタビューを行いました
そして、この共有は、次の記事です
.....
こんにちは、私たちはThree Idiotsチームです。
まず第一に、我々はKaggleレースでFFMモデルを使用して、台湾のビッグチーム3Idiotsを成功に近付けなかったことを明らかにする必要があります。 私たちのチームは、北京大学からチャールズとウェポンと中国科学大学からwsssです。 当初は、weponが密な特徴の抽出とxgboostモデルのトレーニングを主に攻撃し、スパース特性トレーニングに基づくFFMモデルを研究しました。 FFM モデルは、最初のレースのデータではあまりうまくいき、最良の結果は xgboost よりもわずかに劣ります。 その後、wsssに入社した後、一方では自虐的であり、他方では、台湾の大きなチームへの敬意から、我々はThreeIdiotsとしてチーム名を設定し、今日まで保持しました。 混乱や誤解を招いた場合は、お詫び申し上げます。
おそらく、幸運の女神は、私たちの世話をし、我々はデータ切り替え後の最初の週のタイトルを獲得しました。 幸運だったのは、特徴を抽出する考え方が、私たちのパフォーマンスが理想的ではない最初のレースとほとんど一致しているからです。 私たちは、多くの人がまだ静かに努力するのを待っているに違いなく、我々は単にいくつかの迅速な利点を持っているかもしれないと信じていますので、我々は再びあなたと議論することを楽しみにしています。 試合の心得については、参考のためにいくつかまとめました。
本題に入ると、私たちのゲームには、主に次の側面があります。
1、全体的な考え方
最も基本的な常識に基づいて、特性はモデル表現の上限を決定し、このコンテストでは、特性が最も重要であると考えています。 特徴の抽出は、実際のビジネスロジックから特徴を発見し、抽出する必要があります。 したがって、ユーザーが広告をクリックした後、コンバージョンを選択するシナリオ、推進力、および制限について慎重に検討する時間を取る前に、いくつかの時間を費やことをお勧めします。 コンバージョンの主な原動力は、ユーザーが広告に対応するアプリを使用する必要性であり、二次的な原動力は広告の表示形式とコンテキスト特性であり、時には見事な表示形式と合理的なタイミングがユーザーの関心を喚起する可能性があります。 さらに、ユーザーが 2G で 50M を超えるアプリをダウンロードできないと仮定できるなど、ユーザーのコンバージョンに影響を与える可能性のある制限があります。 ここでは、より詳細な思考とより良い特性の抽出を期待して、レンガを投げています。
2、データ分割について
一般に、機械学習アプリケーションを構築するには、データセットをトレーニング セット、検証セット、およびテスト セットに分割する必要があります。 時間によるアプローチを採用しました。 このコンペティションのような明確な時系列特性を持つデータでは、データ漏洩は致命的であると考え、特に再戦データセットのサイズが十分に大きい場合、ランダム分割は提唱されません。 データ分割の基本原則は、オンラインとオフラインの両方を可能な限り増加または減少させ、ギャップを可能な限り狭めることも明らかです。
3、特徴工学について
試合のたびに、私は常にクラスメートが私に言った言葉を思い出します: "特性はよく言及しない、パラメータは古いに調整されています", 深く考え、心に留めておく. だから、特性工学は、レース全体を通して私たちの時間の中で最も時間がかかります。 また、パラメータを無意味に調整しないように、フィーチャ抽出により多くの時間を費やしてください。 特に木ベースのモデルでは,これまでの経験から,パラメータの影響は最小限である. この大会でみんなが言ってきたtrickは、結果の上げが限られているのは必ず、先に多くの選手が共有し、ここでは触れたくない。 そして、誰もが考えることができるもう一つの特徴は、様々なIDのコンバージョン率の特徴であり、これはほとんどのチームも抽出すると信じています。 その上で,word embeddingの考え方でuser_installappテーブルから関連する特徴を抽出し,Wide & Deep Modelを用いた密な特徴の生成も試みった.
4、データサイズについて
皆さんと同様に、再戦では、メモリ不足や低速など、データサイズが大きすぎるために発生する一連の問題に遭遇しました。 ここでは、まず、データの選択とフィーチャのフィルタリングをうまく行う方法を提案します。 データ選択では、データをダウンサンプリングできます。 特徴選択に関しては,初戦の経験に基づいて比較的弱い特徴などを除外することができる. 特徴選択の方法は、一般的にFilter、Wrapper、Embeddedの3種類に分け可能であり、最後の1つは、統合ツリーモデル、Lassoのようなより便利な特徴選択方法であり、ここでも試してみるのが推奨されます。
これ以外にも,特徴をインクリメンタルに抽出する方法は,一部の特徴を抽出するたびにハードディスクに保存し,次回その特徴を利用する必要がある場合には直接データを読み取ってconcatすればよいが,新しい特徴を追加する必要がある場合にも容易に処理できる. 最後に、我々はまた、このレースで非常に重要な勝利要因であると考え、迅速な抽出を達成するために、これらの機能の優先順位を選択することをお勧めします(私は2泊2日のために実行していない特性のために1sを嘆きます)。
5、モデルについて
初戦はxgboostを使い、lightgbmよりも優れた結果を得た。 しかし,再戦では,データ量が多いため,xgboostはlightgbmよりも遅いため,一時的にlightgbmとFMモデルを用いたトレーニングを行った. モデル融合の試みは行わおり、特徴抽出と単一モデルトレーニングの段階にあります。 来週以降は、徐々にモデルの融合を試み始める予定です。 もちろん、xgboost モデルと他のモデルとの融合も試み、チーム名に少しのブーストを期待しています。 この質問では、モデルの融合によるブーストに対する期待は高くありませんが、他の試みに先に機能することをお勧めします。
最終的な要約は非常に短いです:私たちは、より多くのデータを観察し、無駄なコーディングを減らし、特性についてより深く考え、パラメータを調整し、より多くの思考、より少ない試みをお勧めします。
私はすべての良い結果をお祈りします。
終わりだ
詳細については、イベントの公式サイト(http://algo.tpai.qq.com
もちろん、登録方法:
ドライフルギフトのアルゴリズム公式WeChat:TSA-Contest
プレゼントが多すぎる子供の靴が怖いので、ご注意下さください
「発見」-「見る」に移動し、「友人が見ている」を参照します。