毎日Ｒ: R 練習問題

Rの練習問題を作ってみました。今回の対象は次のようなデータフレームです。試験の点数処理を題材としてみました。データを作るスクリプトです。乱数でとも思いましたが、同じ結果の方が見やすいでしょうから。

データはこんな風です。３組それぞれ５人の国・数・英の点数です。

問題と出力です。
#問１　dに個人ごとの計を付加

#問２　計順にソートして表示

#問３　dに計で学年順位を付加

#問４　組ごと計順に表示

#問５　教科間の相関係数

#問６　科目別箱髭図

#問７　国の組別箱髭図

#問８　教科集計

#問９　計の度数分布

#問１０　科目別平均

#問１１　計の組別平均

#問１２　科目別組別平均

#問１３　国の組別平均・最高・最低

#問１４　国50未満を抽出

#問１５　国50未満を抽出、組番国のみ表示

#問１６　数40以上英50以上を抽出

#問１７　数30以上を計順に表示

#問１８　科目別、成績順、組番

#問１９　計の２０点刻み度数分布図

#問２０　科目別５点刻み度数分布表

解答

終わりに
この練習問題では科目は横に展開し、組は縦に展開しているので、科目ごとと組ごとの扱いが違って来る。
apply系の命令をうまく使うことは難しい。この練習問題では、結構面白い使い方ができたと自負している。

簡単にポイントにふれておく。

問１　①新たな列の付けくわえ方②d[3:5]はデータフレームdの３列目から５列目に限定している。データフレームはベクトルのリストであるので、d[3:5]で３列目から５列目が取り出される。これがmatrixならば、d[,3:5]とカンマとつけなければならない。もちろんデータフレームでもこのように指定してもよいが。③行集計にrowSumsを用いた。apply(d[3:5],1,sum)としてもよい。

問２　①ソートにはorderを用いるのが良い。単一のベクトルをソートするにはsortを用いればよいが、キーでソートするようなときはorderがよい。orderは昇順にソートするので、高得点の方が先に来るように、マイナスした。desc=Tを用いてもよいが、おしゃれじゃない。②行番号で指定するので、d[order(-d$計),]と、コンマが必要となる。問１で述べたように、ここでコンマがないと、列の指定となってしまう。

問３　①順位はrank。②引数のt=は ties.method = c("average", "first", "random", "max", "min")である。引数の変数名は誤解のない範囲で省略できる。

問４　orderでソート項目は並べればよい。

問５　特にない

問６　これだけで科目ごとの箱髭図を書いてくれるなんて、なんて便利なんだろう。

問７　組ごとの箱髭図はこう指定する。問６との違いは、先に述べたように、科目は横に展開し、組は縦に展開していること。

問８　特にない

問９　特にない

問１０　d[3:5]がデータフレームなので、sapplyはリストの要素の各ベクトルすなわち各列に対して動作する。

問１１　問１０との違いは、前述のとおり

問１２　applyの中でtapplyを使ってみた。うまくいった。sapplyでもいいのだね。

問１３　いろいろと試行錯誤し、もっともよさげなものをあげた。

問１４～１７　抽出

問１７　抽出と整列を同時にできないかというチャレンジ。一時変数を使わないでやりたかったが、最終的には用いてしまった。敗北感あり。使わない版もいくつか作ったが、同じ計算を２度やらせていて、許せない。いつの日か思いつくかもしれない。

問１８　科目別のベストテンなどの表はよく作るだろう。それである。文字列ベクトルを作っておいて、その並び順を添え字で指定するというこのパターンは初めての経験かもしれない。

問１９　breaksについては問２０参照

問２０　科目別度数分布表。苦労したのは、区間の指定。たとえば、breaks=c(10,20,30,40)とすると、この４つの数値によって、３つの区間に分けられる。10≦x≦20,20＜x≦30,30＜x≦40。最初の10の不等号に＝が入っている

サンプルデータでは、回帰係数や回帰分析や、主成分分析、クラスタ分析も面白くなかろうと思ってやめた。

毎日Ｒ

2017年8月8日火曜日

R 練習問題

0 件のコメント:

コメントを投稿