首页 > AI-Agent 面试题汇总 - 自然语言处理篇 (知识图谱)
头像
Code_Agent
发布于 昨天 09:58 河北
+ 关注

AI-Agent 面试题汇总 - 自然语言处理篇 (知识图谱)

1. 医疗数据来自哪里,原始格式是什么

常见来源:电子病历、指南文档、药品说明书、问答语料、结构化表。原始格式可能是txt/doc/pdf/json/csv/数据库表,需做脱敏与字段规范化。

2. 使用什么标注工具,如何分配标注任务

常用doccano、label studio。任务分配一般按疾病域或实体类型切分,双人标注+仲裁提升一致性,使用IAA(如Kappa)评估质量。

3. 使用什么标注规则,详细解释

规则通常包含:实体边界规则、歧义词处理、缩写规范、嵌套实体策略、关系触发词定义、冲突优先级。需要沉淀《标注指南》并版本化管理。

4. 如何实现数据预处理,中间步骤有哪些

流程:去噪清洗 → 分句分词 → 术语标准化 → 去重 → 标注对齐 → 训练/验证切分。知识图谱还需做实体标准化(同义词归并)与关系schema校验。

import re

def clean_text(s):
    s = re.sub(r"\s+", " ", s)
    s = re.sub(r"[^\u4e00-\u9fa5A-Za-z0-9,。;:、()%\- ]", "", s)
    return s.strip()

5. 对比了哪些 NER 方法,最后选择哪套,为什么

可对比:规则词典、CRF、BiLSTM-CRF、BERT-CRF。通常在中文医疗场景,BERT-CRF兼顾上下文表达与标签约束,实体级F1更稳定,因此常作为最终方案。

6. 关系抽取有哪些方法,比较原理

方法包括:1)规则模板(高精度低召回);2)监督

全部评论

(3) 回帖
加载中...
话题 回帖