2014年9月16日火曜日

Higgs challenge 終了

この夏は、Higgs Boson Machine Learning Challenge というコンペに参加しました。コンペの目的は、機械学習の方法と物理的な洞察を用いて、CERNのATLASチームが取得した衝突データから H -> tau{\bar tau} の信号を予測しようというものです。このコンペについて知ったのはこの記事でした。管理者によって修正はされているものの、実際の衝突データで遊べるのはなかなかないことなのでいい経験でした。機械学習についてはRでtreeパッケージを扱ったことはあったのですが、ビックデータ解析におけるpython周りの最近の発展については知りませんでした。コンペで競うのにも、pythonのパッケージの1つ、xgboost というのを使うのが便利そうだったので、xgboostが使える環境を構築する必要がありました。これには数日かかりましたが、そのおかげでコンペ期間中ほとんどのあいだ100位以内の順位にとどまることができました。xgboostに加えた改良点の一つに、AMSスコアがデータサイズに依らないようにデータの重みを変更したことが挙げられます。期間中30位あたりに行ったので、物理的な視点からさらに改良を加えたモデルを作りましたがスコアは伸びませんでした。結局、1792チームのうち216番目でした。最終結果はこちらです。上位3チームには賞金が与えられるそうです、おめでとう!

2014年9月3日水曜日

素粒子データ更新

素粒子データ検索システムにParticle Data Groupによる最新のデータを反映させました。最新版はこちらから。ヒッグス粒子が追加されて登録粒子数は212になりました。