1. 医疗数据来自哪里,原始格式是什么
常见来源:电子病历、指南文档、药品说明书、问答语料、结构化表。原始格式可能是txt/doc/pdf/json/csv/数据库表,需做脱敏与字段规范化。
2. 使用什么标注工具,如何分配标注任务
常用doccano、label studio。任务分配一般按疾病域或实体类型切分,双人标注+仲裁提升一致性,使用IAA(如Kappa)评估质量。
3. 使用什么标注规则,详细解释
规则通常包含:实体边界规则、歧义词处理、缩写规范、嵌套实体策略、关系触发词定义、冲突优先级。需要沉淀《标注指南》并版本化管理。
4. 如何实现数据预处理,中间步骤有哪些
流程:去噪清洗 → 分句分词 → 术语标准化 → 去重 → 标注对齐 → 训练/验证切分。知识图谱还需做实体标准化(同义词归并)与关系schema校验。
import re
def clean_text(s):
s = re.sub(r"\s+", " ", s)
s = re.sub(r"[^\u4e00-\u9fa5A-Za-z0-9,。;:、()%\- ]", "", s)
return s.strip()
5. 对比了哪些 NER 方法,最后选择哪套,为什么
可对比:规则词典、CRF、BiLSTM-CRF、BERT-CRF。通常在中文医疗场景,BERT-CRF兼顾上下文表达与标签约束,实体级F1更稳定,因此常作为最终方案。
6. 关系抽取有哪些方法,比较原理
方法包括:1)规则模板(高精度低召回);2)监督

全部评论
(3) 回帖