RstudioによるJADERとFAERSのデータベース作成

Power BIが動作が重いのと、処理時間が長いため、データベースの構築をRstudioでやることにしました。

ゆくゆくは、研究用のデータセットの作成、統計解析の全てをRstudioでやりたいです。


パソコン環境はメモリが8G×2程度必要です。


まずは、RとRstudioをインストール


JADER

PMDAのHPからデータセット(csvファイル)をダウンロード

- RstudioのEnvironmentのImport DatasetからFrom Text (base)を選択し、csvファイルの場所を指定するとデータが読み込まれる

- drug demo hist reacの4つのcsvファイルをそれぞれ読み込むだけでデータセットが完成する

- 作成したデータセットを保存する


FAERS

FDAのHPからデータセット(ASCIIファイル)をダウンロード

*データは14Q3(2014年の3/4期)以降のデータを使うことをお勧めします。これ以降のデータから薬剤名が一般名で検索可能になるためです。


- 4半期ごとのデータのため、ファイルが多数になりますが、以下のリンクのバッチファイルを用いると、1つのフォルダに指定したファイルを一気に格納する事ができます。

 https://pc-automation.tech/wp/copy-only-files-including-the-string/


ファイルの読み込み(DRUGやDEMOなどファイルごとにそれぞれ作業が必要です)

- Rstudioの画面右上EnvironmentのImport DatasetからFrom Text (base)を選択し、textファイルの場所を指定するとデータが読み込まれる

データ区切りで「$」指定するとデータ行が区切られます。


ファイルの結合

- rbindを使ってファイルを結合していく。

  (複数ファイルを一括で結合できる関数があれば教えてください・・・)


- saveコマンドを使ってrdaファイルで保存すると、容量が少なくてすみます。


*とりあえずDEMO、DRUG、REACのみデータベースを構築すれば、ほとんどの解析が可能ですので、他のファイルは慣れてからで良いかもしれません。



追記・・・・

【上記の作業は大変ですので、一括でtxtファイルを結合できます】

#ディレクトリ内の名前が.txtで終わるファイル名を取得 

csv_list <- list.files(pattern = "*.txt") 

*Rstudioの上部SessionのSet Working Directoryで上記の読み込みたいフォルダを指定しておくか、上記コマンドに読み込みたいフォルダの場所を指定しておく。


 #リスト内に名前のあるtxtファイルをすべて読み込んで縦にくっつける

data <- do.call(rbind, lapply(csv_list, function(x) read.csv(x, sep="$", header=TRUE, stringsAsFactors = FALSE))) 

結合したファイルはrdaとして保存しておくと、データ量が少なくて済むようです。


キュレーション(FAERS)

DEMOのデータには重複患者の報告が含まれます。

重複データはcaseversionとして追加データに含まれていきますので、caseidごとに一番数字の大きいcaseversionのデータを残すことで、重複患者報告の削除ができます。

他に体重のポンドや年齢なども月やDECなどで報告されるので、これらのデータをクリーニングした状態のファイルを作っておくと、解析ごとにデータクリーニングをしなくてもよくなります。


これ以降の作業も、覚書き用に記載しておくつもりですが、もっと効率的な方法があれば教えてください!



0コメント

  • 1000 / 1000