2024年12月14日上午十点,受我院向剑文教授邀请,来自于美国杜克大学电子和工程系的Kishor S. Trivedi教授在腾讯会议中进行了主题为“Rethinking Software Fault Tolerance”的学术分享。本次会议由胡文华老师主持,学院四百余名研究生参与了此次会议。
Trivedi教授在讲座中指出,现代软件系统的复杂性日益增加,广泛应用于航空航天、银行系统及工业控制等关键领域。然而,即便采用了先进的故障检测与移除技术,软件运行中依然难免出现“Bohrbug”与“Mandebug”,这些故障是系统不可靠的主要原因。
针对这一挑战,教授提出了经典的“设计多样性”容错方法,该方法通过开发多个版本的软件以减少单点故障的风险,但其高昂的成本限制了其应用范围,仅适用于安全关键领域。此外,他还分享了恢复块、多版本编程等传统容错方法,并进一步提出了基于“环境多样性”的创新容错策略,利用重试、重启及节点切换等措施降低故障影响。
在软件老化问题的研究中,Trivedi教授以IBM X系列服务器为案例,详细讲解了其团队提出的“软件复苏”机制。这一主动恢复机制能够在系统性能下降前进行自我修复,大幅提升系统的可靠性与可用性。教授特别提到,自1995年起,该机制已被广泛应用于包括NASA航天软件在内的关键任务系统,并通过与NASA合作的实验验证了其实用性和有效性。
Trivedi教授还将软件故障分类为三类:Bohrbug(易复现的简单故障)、非老化相关Mandelbug(复杂且难以复现的环境相关故障)及老化相关故障。针对这些故障类型,他提出了多种缓解措施,包括调试测试、设计多样性、环境多样性以及主动复苏等。
随后,教授通过WebSphere应用服务器案例,展示了基于故障检测与恢复的可靠性分析框架。他指出,理论研究与工程实践的紧密结合是提升软件系统可靠性的关键。在讲座的最后,教授积极回答了参会同学和老师提出的问题,参与者纷纷表示受益匪浅,不仅对软件容错技术有了全面认识,更对未来的研究和应用充满期待。
(图文:骆光鲁 编辑:陈梦霖 审核:钟忺 韦宇)