kaggleというサービスに登録してみたよ。
英語だけど大丈夫かな???
今までは、scikit-learnのトイデータでいろいろ試してきましたが、少し違うデータもやってみたいとい感じていました。そこで、機械学習のチュートリアルとしてよく見る「タイタニック号の生存者データ」というものを利用してみます。このタイタニック号のデータは、Kaggleという機械学習のWebコミュニティの初心者チュートリアルとなっているもので、まずはKaggleへの登録から行いました。
※今回は、Kaggleをざっと眺めたような内容になっていますので、タイタニック号の機械学習など詳細まで踏み込んでいません。
こんな人の役に立つかも
・機械学習プログラミングを勉強している人
・kaggleってなに?登録して何をするの?という人
・Kaggleでタイタニック号のチュートリルを始めたい人
kaggleに登録
kaggleは、機械学習やデータサイエンスのコミュニティサイトで、企業が提供しているデータセットを利用できたり、コンペに参加してアルゴリズムの精度を競ったりできます。
今回の私の目的は、いろいろなところで見るタイタニックの生存予測のためのデータです。
googleのアカウントがあるとgoogleアカウントと紐づけして登録できるみたいです.
私は今回googleアカウントで登録しておきました。
表示名(Full Name displayed)は英語名のみなので、日本語入力されていた名前を英語名に変更して登録しました。
タイタニック号のチュートリアル
最初ログインすると、なんだかよくわからない感じがしてそっとウィンドウを閉じそうになりますが、英語を注意深く読み始めると、とても親切設計なサイトになっています。
ただ英語ができないだけでした。
タイタニック号のチュートリアルはどうやら「Compete」メニューにあるようです。
「Titanic:Machine Learning from Disaster」という項目で、ここから始めてねと、丁寧に出てきてくれています。
なんという親切設計・・・
Kaggleを探検してみました
まずは、先ほどのタイタニック号のチュートリアルページを読んでみました。
チャレンジの内容について
タイタニック号の乗客データがもらえます。
データは「train.csv」と「test.csv」にわかれていて、「train.csv」を利用してモデルを作成します。
一方、「test.csv」の答えデータは開示されていないので、「train.csv」データで作成したモデルで予測したデータをkaggleにアップロードするまでは、自分のモデルが「test.csv」に対してどのようなスコアが出たかはわかりません。
こうして、kaggleの初めてのコンペに参加することができます。
ちなみに、「gender_submission.csv」というファイルもダウンロードできて、モデルの予測データの例となっています。これは、女性が全員生存し、男性が全員死ぬという極端な回答となっていますが、初めての提出に使ってみるためのファイルみたいです。
初めてのおつかい用ファイルだね。
プログラミング環境
Kaggleでは、「train.csv」をダウンロードして、自分のパソコンの環境でプログラミングをすることもできますが、kaggleが準備してくれた開発環境も利用できるみたいです。
kaggleの「Notebook」からプログラミング環境にアクセスすることができました。
kaggleのNotebookでHelloWorldしてみよう
まずは、プロジェクトを作成します。
もちろん「Python」を選択です。他には、「R」という言語も選択できるようですね。大学などではよく使われているそうです。
次は、「Notebook」を選択します。これを選択することで、JupyterNotebookのようにブロック単位で実行できる環境を作成することができます。いつも利用しているgoogle colaboと同じように実行できるのでこちらにしています。
他にも、自分のgoogleアカウントのサービスと連携できるようなメニューもありました。多機能ですね。
最後に「Create」ボタンを押します。
次のようにノートブックができたら、まずはタイトルを変更しましょう。そして、ハローワールドしてみます。
※ノートブックを作成すると、1ブロック目が存在しましたが、それは削除しました。
プログラムブロックは「shift + enter」で実行できました。これもJupyterと同じです。ありがたい・・・
Notebookの右にdataという欄がある、もしかして・・・
右の欄に、データという項目があったので、少し覗いてみました。
タイタニックのデータをNotebookに追加
検索条件をCompetition Dataに、Getting startedで絞ってみよう・・・
なんだか、タイタニックのデータがありましたので、「add」してみます。
このように、簡単にコンペデータをダウンロードしてくることができました。
Notebookを閉じるときは、次のように「←」で戻ります。
作成したノートブックが表示されています。ノートの公開範囲なども設定することができるようです。
Kagglerデビューということで良いのでしょうか。