史操
职称:讲师
学历(学位):博士
导师类别:硕士生导师
研究方向:人工智能、图像处理及计算机视觉应用、AIGC与游戏开发
联系方式:caoshi@yeah.net; 15964203220(微信) https://dlvug.github.io/ (学术主页)
基本信息
史操,男,工学博士,北京大学博士后。研究领域为人工智能理论及应用、数字图像/视频处理相关算法研究,以及人工智能理论及图像/视频处理算法在具体计算机视觉任务中的应用实践。近年主持及参与国家自然科学基金项目、数字出版技术国家重点实验室项目、山东省重点实验室项目,以及其他横向项目;多次参加国际高水平学术会议;发表高水平论文多篇;授权国家发明专利多项。担任多个国内外期刊审稿人,与英国赫瑞瓦特大学、北京大学等高校以及旷视科技、方正电子等业内科技公司保持联系。
其所在学术团队近年来先后在IEEE Transactions on Multimedia、IEEE Transactions on Instrumentation and Measurement、Simulation Modelling Practice and Theory等知名国际期刊及主流国际会议发表学术论文近30篇;主持了包括国家自然科学基金、企业委托研发课题等科研项目;获得4项发明专利授权。研发了“文档结构化信息抽取系统”、“医学图像分割系统”等完全自主知识产权系统。
具体学术成果,详见学术主页:https://dlvug.github.io/
目前面向本科生、研究生讲授《人工智能数学基础》、《机器视觉与应用》、《软件测试》等课程。
学术成果(部分)
• Canhui Xu., Yuteng Li, Cao Shi(史操,通讯作者). et al. HiM: hierarchical multimodal network for document layout analysis. Applied Intelligence 53, 24314–24326 (2023). https://doi.org/ 10.1007/ s10489-023-04782-3
• Cao Shi(史操), Canhui Xu, Hengyue Bi, Yuanzhi Cheng, Yuteng Li, Honghong Zhang. Lateral Feature Enhancement Network for Page Object Detection[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71:1-10
• Cao Shi(史操), Canhui Xu, Jianfei He, Yinong Chen, Yuanzhi Cheng, Qi Yang, Haitao Qiu. Graph-based convolution feature aggregation for retinal vessel segmentation[J]. Simulation Modelling Practice and Theory,2022
• Canhui Xu, Cao Shi(史操,通讯作者), Yinong Chen. End-to-end dilated convolution network for document image semantic segmentation[J]. Journal of Central South University, 2021, 28(6): 1765-1774.
• 史操, 邹北骥, 蔡美玲, 孟志刚, 陈再良. 自适应异步采样运动数据压缩算法[J]. 电子学报 , 2012,40(1):128-133.
• Bei-Ji Zou, Cao Shi(史操), Can-Hui Xu, Shu Chen. Enhanced Hexagonal-Based Search Using Direction-Oriented Inner Search for Motion Estimation[J]. IEEE Transactions on Circuits and Systems for Video Technology. 2010,20(1):156-160.
• Beiji Zou, Shu Chen, Cao Shi(史操), Umugwaneza Marie Providence. Automatic Reconstruction of 3D Human Motion Pose from Uncalibrated Monocular Video Sequences Based on Markerless Human Motion Tracking[J]. Pattern Recognition. 2009,42(7):1559-1571.
• 史操;许灿辉;刘传琦;程远志;陶冶;马兴录;刘国柱.基于深度学习生成文档图像集的方法,CN112347742A
• 许灿辉;张洪红;李玉腾;史操;程远志;刘宇博;杨琦.一种基于深度学习的肺结节检测方法,CN115619706A
• 许灿辉,史操,孙春奇,陶冶,刘国柱,程远志.一种利用先验知识构建文档图像数据集的方法,CN111783416A
教科研项目
• 基于Mooctest的O2O软件测试培训新机制,“青岛青软实训教育科技股份有限公司”,2019.1-2021.1
• 深度学习及计算机视觉相关技术研究,“山东计算机学会省重点实验室联合开放基金项目”,2018.6-2020.6
• 多模型文档版面分析和理解算法研究,“国家自然科学基金61806107”,2019.1-2021.12
• 一种新型O2O慕课教学模式创新研究:基于慕测平台Mooctest的软件测试课程,“永利欢乐娱人城教学改革研究立项”,2018.6-2020.5
• 基于条件随机场及特征融合的书法字生成,“数字出版技术国家重点实验室(北大方正)”,2014.11-2015.11
• 文档图像的分割及文字信息增强技术,“数字出版技术国家重点实验室(北大方正)”,2014.11-2015.11
其他成果
竞赛指导
• 全国大学生软件测试大赛,获奖若干项
• 蓝桥杯全国软件和信息技术专业人才大赛,省三等奖,1项
近期工程实践
目前(自2023年11月起)正带领研究生研究基于多模态框架的场景文本检测和识别方法。团队研究了视觉和语言特征之间的内在协同规律,克服了目前多模态通常采用单一粒度特征的融合策略而无法充分利用先验上下文的问题。为了解决这个问题,我们提出了一种多粒度视觉语义交互融合网络(MGN-Net, Multi-Granularity Visual Semantic Interactive Fusion Network),其包含:(1)视觉语义多粒度特征提取网络(VSMN, Visual Semantic Multi-Granularity Feature Extraction Network); (2) 多粒度图融合学习网络(MGFN, Multi-Granularity Graph Fusion Learning Network). 具体网络结构如下图所示:
2024年5月,我们使用上图网络参加 ICDAR 2024 竞赛 (The International Conference on Document Analysis and Recognition, 2024):
<1>Task 3: Detection-Recognition (我们取得 第三名)
https://rrc.cvc.uab.es/?ch=28&com=evaluation&task=3
<2>Task 1: Detection (我们取得 第五名)
https://rrc.cvc.uab.es/?ch=28&com=evaluation&task=1
具体而言:
<1>Task 3: Detection-Recognition
第一名:Bilibili Inc.
第二名:天津大学
第三名:我们团队
<2>Task 1: Detection
第一名:Bilibili Inc.
第二名:American Express
第三名:天津大学
第四名:American Express
第五名:我们团队