不均衡分析のためのデータベース構築

リレーショナルデータベース

リレーショナル型のデータベースは複数のファイルから成り立ちます。以下に紹介するJADERやFARESなどの副作用データベースはリレーショナル型になっています。副作用は原因薬剤が複数になることがありますし、単一の薬剤から複数の副作用症状が生じる場合もあります。このようなシチュエーションに対応するためのデータベース構造で、副作用が格納されたファイル、薬剤が格納されたファイル、患者の基礎情報が格納されたファイルなどに分かれています。解析するときは、エクセルなどを用いて、IDなどで必要な情報の紐づけを行ってから、解析を実行します。


リレーショナルデータベースの解析ソフト

エクセルは100万桁以上のデータを読み込めないため、副作用データベースを解析するにはエクセル以外のソフトを使用する必要があります。JADERおよびFAERSはマイクロソフトのPower BIで読み込んで解析することが可能です。

*FAERSはデータ量が膨大なため、Power BIでデータベースを構築しようとすると、少しハイスペック気味のパソコンが必要になります。この辺の費用負担を気にするようなら、専門的知識は必要になりますが、SQLなどを使ってデータベースを構築する手段もあります。

DELL製の8Gメモリ、第10世代 インテル® Core™ i5-10400 プロセッサー(6-コア, 12M キャッシュ, 2.9GHz to 4.3GHz)搭載の、Vostro 3681スモールシャーシ プレミアムモデル(大容量メモリ・SSD搭載)Q-1を購入したところ、なんとかデータベースが構築できました。

*ちなみにinspiron 5391 core i3 (メモリ4G)のノートパソコンでは解析できませんでした。

*その後、DELLのパソコンのメモリを以下に変更して、32Gに増設したところ、かなり余裕で動作しています。(たぶん最低8G×2のメモリがあったほうが良いと思います)

Crucial 増設メモリ CT2K16G4DFD832A [DIMM DDR4 /16GB /2枚]


今はRstudioを使ってデータベース構築しているので、上手くできたら公開させていただきます。


不均衡分析

副作用データベースを用いた不均衡分析は、薬剤と副作用に因果関係がある場合に、ない場合と比較して報告件数が多くなるということを仮定した手法です。

こちらの文献に計算方法も含めて詳細が記載してあります。


日本の有害事象報告データベース(JADER)を用いた研究におけるチェックリストの作成と実態調査

医薬品リスク管理における薬剤疫学研究への期待



データベースの構築

まずはリレーショナル型のデータベースを構築する必要があります。

①Power BIをダウンロード

②JADERのデータセット4つのcsvファイルもダウンロード

 ③Power BIに4つのファイルをそれぞれ読み込ませる 

④リレーション機能により、4つのファイルを識別番号を用いて紐づけする。 (特にdrugとdemoを紐づけして、related関数を用いてdrugに年齢、性別、身長、体重データなどが表示されるようにしておくと、その後の解析が楽になります:この場合drug→demoでリレーショナルを作成する) 

⑤ここまでできれば、あとは不均衡分析を実施するだけです。 

(重複データの削除などデータのクリーニングは必要になりますが、対象とする薬剤が絞れれば、その後はエクセルを使ったほうが楽に操作できると思います、データはPower BIからエクセルにコピペが可能です。)


*JADER

期間で分割されていないので、それぞれのcsvファイルを読み込むだけでOKです。

demo, drug, reac, histのファイルに分かれています。

demoは患者背景、drugは薬剤情報、reacは副作用情報、histは患者の原疾患情報などが記録されています。


*FAERS

2004年からのデータが四半期ごとに分割されて公開されています。

また、データラベルが変更になっているため、データクリーニングが必要です。

Power BIに読み込ませる場合はdrugなどのファイルを1つのフォルダにまとめて格納する必要があります。

Power BIはASCIIファイルを読み込めます。


以下のリンクのバッチファイルを用いると、1つのフォルダに指定したファイルを一気に格納する事ができます。

https://pc-automation.tech/wp/copy-only-files-including-the-string/


リレーション

JADERもFAERSもdrugに体重や年齢、性別などの患者背景の列があると、集計時に便利です。

①リレーションでdrugからdemoの患者IDを選択して紐づけ

②多対1でリレーションを作成します。

*JADERではdemoで重複データがあると、リレーションできないので、demoの重複データはPower Queryを用いて重複削除しておきます。(FAERSも同様です)

リレーションができると、他のファイルからデータの紐付けが出来るようになります。

Power BI ではrelated関数を用いて紐付けをします。




0コメント

  • 1000 / 1000