社内開催の『統計勉強会』に参加してみた

社内開催の『統計勉強会』に参加してみた

現在、ショーケース・ティービーでは有志による勉強会がいくつか開催されています。
<bitWave関連記事『「技術書読書会」ノススメ』>
今回はその中でも一風変わった勉強会についてご紹介させていただきます。

「統計に関する入門勉強会」開催の経緯

その “一風変わった勉強会” とは「統計に関する入門勉強会」です。
ショーケース・ティービーのサービスの中にはコンサルティングが要となるサービスもいくつかあるのですが、当然ながら社内コンサルだけが統計学を習得していればいいというものでもありません。また、開発員も統計学を知っていて “ソン” はない状態ですし、世の中的にもビッグデータの時代ですから、データサイエンティストのニーズは高まる一方。これは今学んでおくべき学問と言えるのではないでしょうか。

自身でも独学で学習を開始していましたが、やはり独学では限界があります。
腑に落ちなかったり、覚えたつもりでもすっかり忘れていることもあったりと、身についていない状態でした。しかし、社内で自発的に社会人数学教室へ通っているメンバーが在籍していたため、彼なりに理解できた知識を社内に還元するという目的で勉強会開催に至ったわけです。非常にありがたい……。

既にこの「統計に関する入門勉強会」は数回開催されています。
回を重ね、R言語を使った形式で進み始めるようになったことで、bitWave上でも紹介しやすい内容になってきました。
今回の紹介内容は「Rに慣れましょう」という感じではありますが、“統計” に関する知識を必要とされる方の背中を押せる記事であることを祈るばかりです。

基礎計算:その1「基礎的な足し引き算やsin関数を試してみた」

これまで私はR言語を使ったことがなかったのですが、意外に記述が少なく、非常に便利な言語であるという印象を受けました。
今回の学習用に専用の環境を「Jupyter」に用意しています。

最初は基本的な足し算や引き算、sin関数に値を入れて、結果を確認という初歩的なところからスタートしています。

基礎計算:その2「ベクトル(配列)を試してみた」

次はベクトルを用意しました。
プログラマーの方であれば、「配列」と言った方がしっくりくるかもしれませんね。

代入が「=」ではないのが少し印象的でした。

基礎計算:その3「代表値を試してみた」

代表値(平均値、中央値、最頻値)を出してみました。

足し算や引き算、sin関数といった基礎的なものだけでなく、これなら標準偏差や分散、四分位数なんかでもカンタンに出すことができますね。

基礎計算:その4「CSVファイルから描画してみた」

少しばかり応用編を。
予め用意したCSVファイルを読み込み、それを描画してみました。

ご覧の通り、カンタンに読み込むことに成功しました。

また、二次元とはなっていますが、下図のように代表値なんかも出すことができます。

該当データの「平均気温」のヒストグラムを容易に出すこともできますね。

「基礎計算:その2」で作ったベクトルなんかであっても、2つを並べて描画することもカンタンにできました。

身長や体重といった散布図を描画し、相関係数も出してみましょう。

見づらいかもしれませんが、これなら「0.85」と強い相関があるかもしれない……といったことも分かりますね。

さらに回帰直線を追加するとこんな感じに……

かなり簡単に実施することができましたね。

あくまでも “R” に触ってみた序章にすぎない……

今回はあくまでも馴染みのなかったR言語に触れただけ。次回からまた統計の学習に戻ると思います。
共有してくれた情報元は社会人向けの数学教室の内容であるため、一般社会における利用例なんかも共有いただけました。これは独学では知り得ない内容なので、単純に楽しいですね。

また記事化しやすい情報であったり、独学では知り得ない情報があった際にはご紹介させていただきます!

コメント