練習用データを取得する データの受け渡しに多く使われるのがCSVファイルです。データ分析の第一歩はこのCSVファイルを各ツールにインポートするところから始まります。ここではデータ分析で頻繁に使われるR、Pythonとデータの加工に便利なSQLをデスクトップで使えるマクロソフトのAccessとオープン […]
一昔前までは、データの取得には大変コストがかかり、貴重でした。しかし現在では様々なデバイスからデータが取得できるようになり、ビッグデータと呼ばれる巨大なレコード数を持つデータセットが手に入るようになりました。これだけデータがあれば、結構自由に分析できる・・・と思うのは少し早いかも。データが増えたのは […]
データの活用で直線のあてはめというのは様々なところに出てきます。何かを予測するとき、データ間の関係性を見るとき、目的はいろいろですが、ばらばらに獲得したデータの関係性を紐解いていくうえでまず直線であてはめてみるというのは定石です。その最も基本的な手法が、推計した直線と実際のデータの差(誤差)を最小に […]
回帰分析をしていて悩ましい問題は、マルチコです。正確には、日本語では多重共線性、英語ではmulticollinearityと言います。略して、マルチコ。マルチコが一体何かというのを直感的に言いますと… 説明変数のいくつかが、実は同じようなことを計測している状態をいいます。ここに二つ変数あるけど、おな […]