AI-Agent 面试题汇总 - 自然语言处理篇 (知识图谱)

1. 医疗数据来自哪里，原始格式是什么

常见来源：电子病历、指南文档、药品说明书、问答语料、结构化表。原始格式可能是txt/doc/pdf/json/csv/数据库表，需做脱敏与字段规范化。

常用doccano、label studio。任务分配一般按疾病域或实体类型切分，双人标注+仲裁提升一致性，使用IAA（如Kappa）评估质量。

规则通常包含：实体边界规则、歧义词处理、缩写规范、嵌套实体策略、关系触发词定义、冲突优先级。需要沉淀《标注指南》并版本化管理。

流程：去噪清洗 → 分句分词 → 术语标准化 → 去重 → 标注对齐 → 训练/验证切分。知识图谱还需做实体标准化（同义词归并）与关系schema校验。

import re

def clean_text(s):
    s = re.sub(r"\s+", " ", s)
    s = re.sub(r"[^\u4e00-\u9fa5A-Za-z0-9，。；：、（）%\- ]", "", s)
    return s.strip()

可对比：规则词典、CRF、BiLSTM-CRF、BERT-CRF。通常在中文医疗场景，BERT-CRF兼顾上下文表达与标签约束，实体级F1更稳定，因此常作为最终方案。

方法包括：1）规则模板（高精度低召回）；2）监督

2026最新求职资料大礼包领取

大家都在关注

校招日程表笔试日历 ai模拟面试面试宝典剑指offer 知识点专项练习

采纳

精彩

(3) 回帖

加载中...

话题同步到我的动态回帖