当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术21年22期

基于机器学习的乳腺癌分期标志物检测方法研究
辛瑞昊 ¹'²,王甜甜¹,李英瑞¹,冯欣¹'²
(1. 吉林化工学院,吉林 吉林 132022;2. 吉林大学 计算机科学与技术学院,吉林 长春 130015)

摘  要:癌症是一种严重威胁人类健康和生命的疾病。文章以 TCGA 公开数据库中的乳腺癌数据作为研究样本,基于机器学习中 T-test 检验和卡方检验方法对乳腺癌数据进行特征筛选和特征提取,保留有效的特征信息,剔除冗余信息。采用 5 种分类器对乳腺癌的分类进行研究,筛选出排在前 10 位的乳腺癌生物标志物进行深入研究,实验结果有助于探索遗传信息和自然因素在乳腺癌致病机理中的角色,并为预后评估的精准医疗提供科学依据。


关键词:乳腺癌;特征筛选;特征提取



DOI:10.19850/j.cnki.2096-4706.2021.22.028


基金项目: 吉林省高教科研课题 (JGJX2021D226、JGJX2021D213);吉林市科 技创新发展计划项目(2019301088);产学合作 协同育人项目(202101244021)


中图分类号:TP391.4                                          文献标识码:A                                    文章编号:2096-4706(2021)22-0095-03


Research on Detection Method of Breast Cancer Staging Markers Based on Machine Learning

XIN Ruihao1,2 , WANG Tiantian1 , LI YingRui 1 , FENG Xin1,2

(1.Jilin Institute of Chemical Technology, Jilin 132022, China; 2.School of Computer Science and Technology, Jilin University, Changchun 130015, China)

Abstract: Cancer is a disease that seriously threatens human health and life. Taking breast cancer data in TCGA open database as the research sample, the T-test test and chi-square test method in machine learning are used to perform feature selection and feature extraction for breast cancer data, retaining effective feature information and eliminating redundant information. Five classifiers are used to study the classification of breast cancer, screening the top 10 breast cancer biomarkers for further study. The experimental results will help to explore the role of genetic information and natural factors in the pathogenesis of breast cancer, and provide scientific evidence for precision medical treatment on prognosis evaluation.

Keywords: breast cancer; feature selection; feature extraction


参考文献:

[1] 刘青,张英,周馨,等 .2009—2018 年北京地区单中心乳腺癌临床流行病学及病理特征回顾性分析 [J]. 肿瘤,2020,40(6): 431-439.

[2] TSAI C J,RIAZ N,GOMEZ S. Big Data in Cancer Research: Real-World Resources for Precision Oncology to Improve Cancer Care Delivery [J].2019,29(4):306-310.

[3] 杨剑锋,乔佩蕊,李永梅,等 . 机器学习分类问题及算法研究综述 [J]. 统计与决策,2019,35(6):36-40.

[4] 朱军,胡文波 . 贝叶斯机器学习前沿进展综述 [J]. 计算机研究与发展,2015,52(1):16-26.

[5] 孟小琴,屠俊标,魏萍萍 . 乳腺癌相关血清肿瘤标志物的临床研究进展 [J]. 癌症进展,2021,19(4):334-338.

[6] 陈冬灵 . 基于 Qt 和 Wi-Fi 的室内环境监测系统设计 [J]. 信息技术与信息化,2019(11):22-25.

[7] 李佳圆,郝宇,吴雪瑶 . 基于多组学数据的流行病学研究策略及其在乳腺癌研究中的应用 [J]. 中国普外基础与临床杂志, 2020,27(11):1344-1347.


作者简介:辛瑞昊(1989—),男,汉族,吉林梅河口人,讲师,工学博士,研究方向:先进控制理论及应用、大数据分析等; 王甜甜(1997—),女,汉族,陕西咸阳人,硕士研究生在读,研究方向:大数据分析与挖掘;李瑞英(1998—),男,汉族,陕西 西安人,硕士研究生在读,研究方向:大数据分析与挖掘;通讯作者: 冯欣(1989—),女,满族,吉林吉林人,讲师,博士,研究方向: 大数据分析与挖掘。