RstudioによるJADERとFAERSのデータベース作成
Power BIが動作が重いのと、処理時間が長いため、データベースの構築をRstudioでやることにしました。
ゆくゆくは、研究用のデータセットの作成、統計解析の全てをRstudioでやりたいです。
パソコン環境はメモリが8G×2程度必要です。
まずは、RとRstudioをインストール
JADER
PMDAのHPからデータセット(csvファイル)をダウンロード
- RstudioのEnvironmentのImport DatasetからFrom Text (base)を選択し、csvファイルの場所を指定するとデータが読み込まれる
- drug demo hist reacの4つのcsvファイルをそれぞれ読み込むだけでデータセットが完成する
- 作成したデータセットを保存する
FAERS
FDAのHPからデータセット(ASCIIファイル)をダウンロード
*データは14Q3(2014年の3/4期)以降のデータを使うことをお勧めします。これ以降のデータから薬剤名が一般名で検索可能になるためです。
- 4半期ごとのデータのため、ファイルが多数になりますが、以下のリンクのバッチファイルを用いると、1つのフォルダに指定したファイルを一気に格納する事ができます。
https://pc-automation.tech/wp/copy-only-files-including-the-string/
ファイルの読み込み(DRUGやDEMOなどファイルごとにそれぞれ作業が必要です)
- Rstudioの画面右上EnvironmentのImport DatasetからFrom Text (base)を選択し、textファイルの場所を指定するとデータが読み込まれる
データ区切りで「$」指定するとデータ行が区切られます。
ファイルの結合
- rbindを使ってファイルを結合していく。
(複数ファイルを一括で結合できる関数があれば教えてください・・・)
- saveコマンドを使ってrdaファイルで保存すると、容量が少なくてすみます。
*とりあえずDEMO、DRUG、REACのみデータベースを構築すれば、ほとんどの解析が可能ですので、他のファイルは慣れてからで良いかもしれません。
追記・・・・
【上記の作業は大変ですので、一括でtxtファイルを結合できます】
#ディレクトリ内の名前が.txtで終わるファイル名を取得
csv_list <- list.files(pattern = "*.txt")
*Rstudioの上部SessionのSet Working Directoryで上記の読み込みたいフォルダを指定しておくか、上記コマンドに読み込みたいフォルダの場所を指定しておく。
#リスト内に名前のあるtxtファイルをすべて読み込んで縦にくっつける
data <- do.call(rbind, lapply(csv_list, function(x) read.csv(x, sep="$", header=TRUE, stringsAsFactors = FALSE)))
結合したファイルはrdaとして保存しておくと、データ量が少なくて済むようです。
キュレーション(FAERS)
DEMOのデータには重複患者の報告が含まれます。
重複データはcaseversionとして追加データに含まれていきますので、caseidごとに一番数字の大きいcaseversionのデータを残すことで、重複患者報告の削除ができます。
他に体重のポンドや年齢なども月やDECなどで報告されるので、これらのデータをクリーニングした状態のファイルを作っておくと、解析ごとにデータクリーニングをしなくてもよくなります。
これ以降の作業も、覚書き用に記載しておくつもりですが、もっと効率的な方法があれば教えてください!
0コメント