从“数据沙漠”中找到绿洲
从“数据沙漠”中找到绿洲
数据清洗师毛雨晴每天从大量样本中筛选出有效素材,为人工智能深度学习提供数据
毛雨晴(左一)每天要对大量的染色体样本进行数据化转换。 长沙晚报全媒体记者 小刘军 摄
长沙晚报全媒体记者 陈登辉
人物名片
毛雨晴,长沙人,毕业于长沙医学院,自兴人工智能集团智慧医疗数据清洗师。
新职业简介
数据清洗师:根据业务要求,能够用程序实现数据筛选、分类、修正、加工等的工程技术人员。一般要求掌握计算机、数据分析、机器算法等技能。
大数据之所以“大”,意味着它的价值密度低,就像在广袤的沙漠之中,只有寻找到绿洲,才能让数据实现价值。这项繁杂而重要的辨别工作,如今已经形成了一个独特的新职业——数据清洗师。
位于长沙高新区的自兴人工智能大厦里,一个将人工智能应用于医疗的项目已经进入试用阶段,一批数据清洗师每天都在“大浪淘沙”,对大量的染色体素材进行数据化处理。毛雨晴就是其中一位。
人工智能赋能,省去大量繁琐环节
毛雨晴及其团队正在从事的,是一个名为人类染色体智能分析云平台AICKS(以下简称AICKS)的项目。
“染色体如今已经广泛应用于医疗诊断领域,”自兴人工智能智慧医疗的产品及研发经理邹磊告诉记者,在传统的诊断过程中,医生需要对大量的染色体进行分离和判断,“一般人都是23对染色体,分成46条,在样本里,它们交织在一起,想要逐个比对,工作量不小。”即便是熟练的医生,也需要15到20分钟才能完成一个样本。
“与我们合作的中信湘雅生殖与遗传专科医院,高峰期时一个月要处理6000多例,可以想象工作量有多大。”邹磊表示。
为了解决这一痛点,自兴人工智能研发了AICKS,通过运用人工智能算法,对光学显微成像后的人类染色体图像,进行自动去噪、增强、分割与识别,完成染色体疾病的智能检测,自动生成核型分析报告,实现染色体核型智能化分析。
邹磊介绍说,这是一个数据开放平台,包含了数据标注、质检在内的多种工具,以及医生的标注行为以及图像的共享等。为配合平台运转,还有控建的数据中心。
“根据我们的测算,应用AICKS后,每个样本的分析时间可以缩短至3~5分钟,显著提高效率。”邹磊说,在这个过程中,需要让人工智能系统通过海量的案例,去深度学习,而这个把现实素材转化成数据的过程,就需要发挥数据清洗师的作用。
每天要看近万张样本图片,海量数据中“淘金”
毛雨晴是土生土长的长沙人,毕业于长沙医学院,所学的专业是医学检验专业。
“这个专业就是学习如何通过试验和分析样本,向医生反馈结果,”毛雨晴说,她的数据清洗师工作,与这一专业密不可分。
在毛雨晴的电脑屏幕上,显示着一个样本的23对染色体。“我需要做的就是逐个比对,根据算法的需要进行区分,”毛雨晴介绍说,染色体异常的情况主要分为两类,一是数量上的异常,二是结构上的异常,如缺失、增加、异位、互换等。
常人眼里看起来扭曲而模糊的染色体,在毛雨晴眼中却能准确地找到带纹上的特征,“最细微的差别只有几个像素”。这样的样本图片,她每天要看成千上万张。
数据化的过程中,筛选有效素材就像从树上摘果子,果子采摘完后,还要交给下一道工序,打成果汁,也就是把素材完全转化成数字。当染色体素材转换成为数据之后,数据清洗师的工作才算圆满完成。
邹磊告诉记者,目前AICKS已经进入试用阶段,“医生们都希望能够早日用上这个系统,帮助他们省去繁杂而重复的工作”。
职业感悟
人工智能就是“越人工、越智能”。在人工智能赋能各个行业的过程中,都需要海量的数据进行支撑。人工处理数据的过程有重复、繁琐的一面,但这份工作对提高社会效率有很大的意义,值得我们去坚守和突破。
——毛雨晴
中国观察