PRO annotations on Weblogs

PRO annotations on Weblogs

医薬品の開発において,患者報告アウトカム(Patient Reported Outcomes; PRO)と呼ばれる,患者自身による主観的な評価が活用されています. PRO の有力な情報源として,闘病ブログ等,患者自身が作成した Web コンテンツの活用が期待されています.

本データセットは,医薬品の奏功情報を文脈付きでアノテーションした初めてのデータセットです. 患者が作成したブログ記事をクロールし,そこで報告されている医薬品の奏功情報についてアノテーションしました. 具体的には,奏功情報を記述するスパンを特定し,関連する薬剤名,症状を表す標準コード(ICD-10, MedDRA),効果の種類を示すラベルをアノテーションしています.

本データセットについての詳細は下記の文献をご参照ください.
Yuki Arase, Tomoyuki Kajiwara, Chenhui Chu. 2020. Annotation of Adverse Drug Reactions in Patients' Weblogs. in Proceedings of the 12th Edition of its Language Resources and Evaluation Conference (LREC 2020). May 2020.
* 本データセットを使用した成果を出版する際は,上記の文献を引用してください.

データセット

URL とアノテーション情報のみからなるメタデータを公開します.URL を用いて記事をクロールし,全文を復元してください.
PRO_weblog.json

データ例


[
    {
        'index': 734,
        'sentence': '浮腫が始まるようですね目がだんだんあきずらくなってきてます',
        'url': 'http://ameblo.jp/ta10230222ta10230222/entry-12447141085.html',
        'label': {
            'span': '浮腫が始まる',
            'start_idx': 0,
            'end_idx': 5,
            'medicine': 'ラムシルマブ',
            'icd10': 'R609',
            'meddra': '浮腫',
            'effect_type': 'side-effect-positive'
        }
    },
    ...
]
              

データ構造

index
データのインデックス
url
アノテーション対象のブログ記事の URL.この情報を基に文章を復元してください
sentence
アノテーション対象の文
label
アノテーション情報
span: 奏功情報を示すスパンの文字列
start_idx: スパンの文内での開始位置
end_idx: スパンの文内での終了位置
medicine: 医薬品名
icd10: ICD10 コード
meddra: MedDRA コード
effect_type: 効果の種類

一部リンク切れにより復元不可能なデータが存在します.完全版が必要な場合は下記連絡先にお問い合わせください.個別に配布いたします.

連絡先

本データセットに関するお問い合わせは下記にお願いいたします:
荒瀬由紀 arase-AT-ist.osaka-u.ac.jp (-AT- を @ マークに置き換えてください)