Stata の基本的な使い方 | 鍵山琢実のきまぐれウェブサイト“kagitaku.com”

はじめに

ここでは、Stata の基本的な使い方をメモしていきます。まずはインターフェイスがどうなっているのかについて書き、そのあと Do ファイルと Do-file Editor について書いています。また、最後に Stata で扱えるデータ量を増やす方法、ヘルプや検索の利用方法についても触れています。

Stata のインターフェイス

Stata を起動すると、下の画像のようなウィンドウが立ち上がります。真っ黒な背景に緑色の文字というデザインがコマンドプロンプトっぽくて、なんだか Stata を使っている人を見ると「できるやつ」と勘違いしそうになりますw

[画像] Stata を起動したところ

Stata のインターフェイスは、(1) ツールバー、(2) ステータスバーの2つのバーと、(3) Review ウィンドウ、(4) Variables ウィンドウ、(5) Results ウィンドウ、(6) Command ウィンドウの4つのウィンドウから成ります。

(1) ツールバー

ツールバーは、Windows ユーザにはおなじみの、「File」「Edit」(「ファイル」「編集」)といった項目が並ぶバーです。ここから Stata の設定を弄ったり、マウスクリックで分析を行ったりします(マウスクリックによる分析はあまりお勧めしませんが)。

また、使用頻度の高いであろう機能のいくつかがボタンとして用意されています。例えば1番左の「Open」ボタン[画像] Stata 「Open」ボタンはファイルを開く際に用います。「Open」ボタン以外によく使うのは、「New Do-file Editor」ボタン[画像] Stata 「New Do-file Editor」ボタンだと思います。Do ファイルの詳細については「Do ファイルと Do-file Editor」をご覧ください。

(2) ステータスバー

ステータスバーも Windows ユーザにはおなじみですが、Stata では基本的に見る必要のないエリアです。今後重要な役割を担っていくという可能性は0ではありませんが、今は不要な要素と言えます。ちなみに起動時には作業ディレクトリが表示されています。

(3) Review ウィンドウ

Review ウィンドウには、これまでに実行されたコマンドの履歴が表示されます。当然起動した直後には何も表示されていません。履歴にあるコマンドをマウスでクリックすると、そのコマンドが Command ウィンドウにコピーされます。なので、ここに表示されているコマンドなら、マウスでクリックして Enter を押すだけで同じコマンドを実行できます。

(4) Variables ウィンドウ

Variables ウィンドウには、データセットの中に含まれている変数の一覧が表示されます。Review ウィンドウがそうであったように、Variables ウィンドウでもマウスクリックで変数が Command ウィンドウにコピーされます。Variables ウィンドウの用途は、変数名を入力するのが面倒なときにクリックしたり、新たに変数やラベルを作成したときにちゃんと作成されたか確認するために使ったりするくらいでしょう。

(5) Results ウィンドウ

Results ウィンドウには、分析結果やエラーメッセージなどが表示されます。分析結果をコピーして Excel などに貼り付けたいときには、コピーしたい範囲を選択して Ctrl + C でコピーできます。右クリックすると、コピーの方法を選ぶことも可能です。「Copy Table」は表としてコピーするもので、これでコピーすれば Excel などにそのまま貼り付けることができます。ただし、選択範囲によっては Excel などに貼り付けたときにずれてしまうことがあるので、そういう場合には選択範囲を変えてみるといいでしょう。「1つの表につき1回のコピー」を心がけるとうまくいくことが多いように思います。たぶんセル幅が違う表を同時にコピーしちゃうとうまくいかないんでしょう。

(6) Command ウィンドウ

Command ウィンドウは、コマンドを入力するエリアです。コマンドというのは、Stata に与える命令のことです。例えば、「pwcorr X Y」というコマンドを入力すると、変数 X と変数 Y の相関係数が算出されます。

文字化けの解消方法=フォント変更

各ウィンドウにマルチバイト文字が使われている場合、デフォルトでは文字化けすると思います。例えば日本語(コメントとかファイル名とかラベル名とか)が文字化けするのが気になる方は、フォントを日本語対応のものに変えてみると問題が解消されるかもしれません。フォント変更の方法は、右クリック → 「Font...」と進み、例えば「MS ゴシック」のような日本語に対応しているフォントを選択して「OK」をクリックすれば完了です。ただ、「MS ゴシック」は可読性が低いので可能なら他のフォントを利用するといいと思います。なお、フォントの変更は各ウィンドウでそれぞれ行う必要があります(やり方は同じです)。

Do ファイルと Do-file Editor

Stata では Command ウィンドウにコマンドを入力して分析を進めますが、例えば今日と同じ分析を明日もやりたいとしたら、また同じコマンドを入力しなければなりません。この面倒さを解消するために、Stata ではコマンドの一覧を Do ファイル(「*.do」)として保存することができます。分析を再開するときにこの Do ファイルを読み込めば、すでに書かれているコマンドを選択して実行するだけで済みます。

Do ファイルの作成と保存

Do ファイルを作成するには、ツールバーの「New Do-file Editor」ボタン[画像] Stata 「New Do-file Editor」ボタンをクリックします。すると、新しいウィンドウで Do-file Editor が開きます。ここにコマンドを入力していき、「Save」ボタン[画像] Stata 「Save」ボタンをクリックすることで保存できます。また、すでに作成してある Do ファイルを開くには、Stata の「Open」ボタン[画像] Stata 「Open」ボタンではなく、Do-file Editor の「Open」ボタン[画像] Stata 「Open」ボタンから行います。

Do ファイルからのコマンドの実行

Do ファイルに書かれたコマンドを実行したいときには、まず、実行したいコマンドを選択します。コマンドが選択された状態で「Run」ボタン[画像] Stata 「Run」ボタンまたは「Do」ボタン[画像] Stata 「Do」ボタンをクリックすると、選択されたコマンドが実行されます。

ちなみに、Run の場合は分析結果が出力されず、Do の場合は結果が Results ウィンドウに出力されます。特に結果を確認する必要のないときには Run でいいでしょう。

さらにちなみに、Run および Do はショートカットキーが用意されています。割とよく使う機能ですからね、開発の方々もわかっていらっしゃるw Windows 版 Stata では、Run は Ctrl + R、Do は Ctrl + D です。ショートカットキーは慣れるともう離れられないくらいお世話になります。Stata を使う機会がけっこうある人はショートカットキーを覚えてみては?

さらにさらにちなみに、Do ファイルが作業ディレクトリにある場合は、Command ウィンドウに以下のように「do」もしくは「run」とファイル名を入力するだけで実行可能です(作業ディレクトリ以外に存在する場合は絶対パスで記述する必要があります)。

  1. do "filename"
  1. run "filename"

例えば作業ディレクトリに「stataCommand.do」という Do ファイルがある場合、Command ウィンドウに次のように入力すると、中に記述されているコマンドが実行されます。

  1. do "stataCommand.do"

なお、この Do ファイルは拡張子は「.do」ですが、基本的にはテキスト形式のファイルです。したがって、メモ帳などのテキストエディタで開いて編集することができます。Stata が使えない環境でも、コマンドの編集だけなら可能というわけです。

また、Do ファイルの場合には、コマンドの前や後ろにコメントを入れることができます。コメントというのは、Stata がコマンドとして認識しない文字列のことです。Stata の場合、多くのソフトウェア同様、「/*〜*/」や「//」がコメントとして使えます。「/*」と「*/」で囲われた部分は無視され、行内コメント「//」から行末までもまた無視されます。自分が見直したときに何をしたのかわかるようにコメントを残すことを強くお勧めします(コメントなら日本語も通りますし)。

最後に、Stata でコマンドを複数行に渡って書く方法をご紹介します。Stata では基本的に1行1コマンドです。ですが、オプションが長くなってしまうようなコマンドだと複数行にわけて見やすく書きたくなります(いわゆるインデントです)。Do ファイル限定ですが、行末に「///」と書くことで複数行コマンドが可能です。上述のように2つスラッシュ「//」は行末コメントですが、3つスラッシュ「///」は「まだコマンドが続くよ」というサインなんですね。

扱えるデータ量を増やす

調査データを分析していると、データが大きすぎて読み込みに失敗することがあります。解決策は

  1. データを圧縮する
  2. 一時的に変数やケース(回答者)を削除する
  3. 割り当てるメモリを増やす

の3つがありますが、大容量のメモリを搭載していることが多い最近の PC なら、(3)の割り当てメモリを増やす方法が簡単でお薦めです。ここではその方法をご紹介します。

Stata では、以下のコマンドで割り当てメモリを変更することができます。

  1. set memory #[b|k|m|g], option
  2.   * option: permanently

このコマンドは、Stata に割り当てるメモリを「#[b|k|m|g]」にするというものです。「#」には数値を入れます。「[b|k|m|g]」部分で数値の単位を指定してあげます。例えばメモリを16メガバイトにしたいなら「16m」で、2ギガバイトなら「2g」です。単位は省略すると「k」=「キロバイト」になります。たいていの場合は「m」=「メガバイト」を利用することになると思います。「permanently」オプションを指定すると、Stata を終了しても設定を引き継ぎます。一時的な設定ならこのオプションは省略したほうがいいでしょう。

たいていのデータならメモリを増やさずに読み込めると思いますし、ちょっと大きいデータでも16メガバイトくらいを割り当てれば問題ないはずです。例えば World Values Survey のフルデータのようにものすごくものすごく巨大なデータになると、200メガバイトくらい割り当てる必要があるかもしれません。

メモリを恒久的に16メガバイトにする例、一時的に200メガバイトにする例を載せておきます。

  1. set memory 16m, permanently
  1. set memory 200m

ヘルプの参照、検索、Ado ファイルのインストール

コマンドのヘルプを参照する

コマンドがわかっている場合、「help」コマンドを使えば Stata に用意されている詳細なヘルプを参照することができます。

  1. help command

他の統計パッケージに比べ、Stata のヘルプは非常に詳細で充実しています(完全に英語ではありますが)。そのコマンドで実行される統計手法の解説に始まり、どのようなオプションが可能か、各オプションの具体的な説明、コマンドの使用例、関連するコマンドと、その豊富な内容に驚かされます。試しに、2変数の相関係数を算出するコマンド「pwcorr」のヘルプを見てみましょう。

  1. help pwcorr

[画像] Stata「help pwcorr」でヘルプ参照

あまりに内容が充実しすぎていて、逆に情報過多かもしれませんね。仮にコマンドがわからなくても、次にご紹介する「search」コマンドと組み合わせることにより、Stata で実装されているほとんどのコマンドが実行可能です。

実行したい統計手法のコマンドがわからない場合は、「search」コマンドを試してみるといいでしょう。目的の統計手法そのものを表すキーワードや統計手法に関連するキーワードで検索すれば、かなりの確率で目的の統計手法を実行するコマンドが見つかると思います。

  1. search word

「search」コマンドは、デフォルトでは Stata に内蔵されているデータベースを対象に検索します。オプションを指定することで検索対象をインターネット上のウェブページにしたりといったカスタマイズが可能です。基本的にはデフォルトでいいと思いますが、興味のある方は「help search」でヘルプを参照してみてください。

では、試しに相関を表す「correlation」というキーワードで検索してみましょう。

  1. search correlation

[画像] Stata「search correlation」で検索

「correlation」というキーワードに関連するコマンドが多すぎるため検索結果が少々煩雑になってしまっていますが、検索結果の7つ目に相関係数を算出する「correlate」コマンドが表示されているのがわかります。普通は相関係数算出には「pwcorr」コマンドを使いますが、「correlate」コマンドのヘルプに「pwcorr」も載っているので問題ないでしょう。

Ado ファイルを利用する ← 公開されているパッケージを検索する

Stata はインストール直後の状態でもかなりの種類の統計手法を実行できますが、統計学の世界では日々新たな統計手法が開発されており、中には Stata が対応していないものもあります。また、古くから用いられてきた統計手法であっても、あまりメジャーでない(と Stata の開発が考える?)ものに関しては対応していないことがあります。こういうときは、対応している他の統計パッケージを使うか、もしくは Stata に Ado ファイルをインストールします。

Ado ファイルというのは、世界中の Stata ユーザが自らマクロを組んで配布している、プラグイン(拡張機能)のようなものです。Stata をユーザ側でいろいろな手法にむりやり対応させる、追加のプログラムと言えばいいでしょうか。仮に Stata が対応していない統計手法であっても、Ado ファイルをインストールすることで実行可能になることがあります。有名どころでは、回帰分析後に行うことがある事後シミュレーションを可能にする「prvalue」というコマンドがありますが、これはインディアナ大学の Scott Long 氏が公開している Ado ファイルをインストールすることで実行できるようになります。Scott Long 氏は Stata のヘビーユーザとして有名で、僕がミシガン大学で ICPSR に参加した際も Stata を使ったライフハックに関する講演を行っていました。

話がちょっと逸れましたが、Ado ファイルのインストール方法をご紹介します。Ado ファイルをインストールするには、まず「findit」コマンドで検索する必要があります。

  1. findit word

「findit」コマンドは、Stata 内のデータベース、インターネット上のウェブページ、公開されている Ado ファイルなど、検索可能なすべての範囲を検索するコマンドです。はい、つまり「search」コマンドで「all」オプションを指定したときと同じ結果を返します。現在のところ、Ado ファイルを探すには「findit」コマンドなどで検索するしかないようです(直接 URL を入力する方法もありますが、検索したほうが楽です)。

では、例として「prvalue」の Ado ファイルをインストールしてみましょう。「findit」コマンドで以下のようにコマンドを検索します。

  1. findit prvalue

[画像] Stata「findit prvalue」で検索可能な範囲すべてを検索

「prvalue」に関連するウェブページがたくさん表示されています。下のほうにスクロールしてみましょう。

[画像] Stata「findit prvalue」 → Ado ファイルを発見

「5 packages found」という表示の下に5つの Ado ファイルが表示されています。「prvalue」を実行可能にするのは、1番下の「spost9_ado」です。こいつをクリックしてみましょう。下のような画面に移動すると思いますので、右のほうの「click here to install」をクリックすればインストールされます。簡単ですね。

[画像] Stata「findit prvalue」 → Ado ファイルのインストール

以上、「help」「search」「findit」の3コマンドをご紹介しました。この3コマンドを使うことで、よりいっそう便利に Stata を使うことができるようになるはずです。Stata に関する日本語の解説が増えてきているとはいえ、まだまだ十分ではありませんので、こういったコマンドを使って自分で調べるということも有効です。ではでは、素敵な Stata ライフを!


Copyright © 2008-2012 鍵山琢実 (KAGIYAMA, Takumi). All rights reserved.

This page was last updated at 15:36:15 on July 27, 2010.

This site's design was checked by IE 6.0+, Firefox 3.5+, GChrome 2.0+, Safari 4.0+, Opera 10.0+, and Sleipnir 2.8+ (all for Windows).
And JavaScript is used for some details. I am so sorry if your browser is not supported.

正当なCSSです! 私はチーム・マイナス6%です

↓ Today's My Favorite Phrase ↓

「きさま──いったい何人の命をその傷のために吸い取った!?」
「おまえは今まで食ったパンの枚数をおぼえているのか?」

From: 荒木飛呂彦 『ジョジョの奇妙な冒険』第3巻 p. 149