在线
客服

发布
需求

天盟
APP

天盟APP下载

关注
微信

微信扫一扫访问
顶部

[智能方案] GPU硬件故障自动检测&故障后显卡自动恢复项目

m7501***发布 已通过手机认证
任务编号:5188249 悬赏任务30000元 悬赏任务 : 按雇主需求进行任务后提交稿件,被采纳后即获得佣金。

GPU硬件故障自动检测&故障后显卡自动恢复项目

距截止: 任务已圆满完成 雇主已托管赏金:30000
雇主发布需求 雇主托管佣金 服务商投稿 雇主开始选稿 任务完成

任务大厅共需1个合格投稿 | 每稿将获得30000| 每人交稿次数不限 可多次任务

投诉举报 联系Ta 我来承接 已有1 个投稿 | 已采纳1 稿 | 拒绝0 稿 | 目前中标名额已满

任务需求:
一、解决显卡故障类问题

1.  使用显卡时,出现了显卡SDMA TIMEOUT,GFX TIMEOUT等故障类问题,需要技术提供方定位问题级别。定位的故障环境信息由我司提供。

2.  Android使用OpenGLES时出现渲染异常,需要提供解决办法或者规避办法。需要技术提供方定位问题级别,根据问题级别,选择投入人力定位解决。定位的故障环境信息由我司提供。

3.  使用显卡的开源驱动,导致主机crash异常等故障,需要提供解决办法或者规避棒法,需要技术提供方定位问题级别。定位的故障环境信息由我司提供。

4.  通过PATCH合入,现网观察1个月,此类问题不再复现视为验收通过,否则验收不通过。

二、GPU硬件故障自动检测&故障后显卡自动恢复

要求:

1.  如果显卡出现硬件故障,需要在系统日志打印日志,并提供是否可恢复的接口提供给驱动软件识别和调用。

2.  故障检测需要检测并定位是硬件功能故障还是软件引起的故障,能够区分到进程级别。

3.  对于不可恢复的故障,提供告警和监控通道,方便及时更换和复位硬件(告警接口与告警系统要易于对接)。对于可恢复的故障,自动恢复硬件和复位驱动,并有机制或者日志通知给上层应用,方便恢复业务,达到商业交付。

4.  自动恢复需要做到进程级恢复,也即是哪个进程造成了GPU故障,只需要重启那个进程即可恢复,GPU卡上的其他进程不受影响;

5.  不能影响当前整机云手机密度。

6.  所有的设计文档需要联合review。

7.  提供测试用例设计文档。

8.  GPU hang故障场景说明:通过GPU的内核驱动和用户态mesa驱动配合,实现GPU hang的自动恢复故障,标识出引起故障的进程,并拒绝执行从该进程提交的GPU指令,故障进程重启即可正常使用GPU;GPU上非引起故障的其他进程,则不受影响;如果是因为固件(Firmware)死机引起的GPU hang,则不要求恢复回来,上报告警相关告警即可。乙方给出推荐的固件版本,或者以甲方目前使用的版本为准;

使用道具 举报

全部参与1

已采纳

使用道具 举报

发新帖
国内首家创新型IT技术需求众包服务平台,软件需求就上天盟网! 立即登录 立即注册