当前课程目录 (点击可折叠)
-
课程代码
-
代码+课件网盘地址
- 代码+课件网盘地址.txt
-
第00周:直播答疑+开营直播回放
- 00-01、开营直播回放.sz
- 00-02、直播答疑-20251025.sz
- 00-03、直播答疑-20251108.sz
- 00-04、直播答疑-20251122.sz
-
第01周:机器学习与深度学习基础(上)
- 01-01、课程概述.sz
- 01-02、常见机器学习任务与算法:机器学习任务类型.sz
- 01-03、常见机器学习任务与算法:机器学习十大算法.sz
- 01-04、常见机器学习任务与算法:机器学习的任务步骤.sz
- 01-05、深度学习任务版图.sz
- 01-06、深度学习算法.sz
-
第02周:机器学习与深度学习基础(下)
- 02-01、深度学习训练要素.sz
- 02-02、强化学习最小闭环.sz
- 02-03、PyTorch基础与工程要素.sz
- 02-04、实战:电商SKU卡生成.sz
-
第03周:大模型微调与落地(上)
- 03-01、大模型的演进历史(一).sz
- 03-02、大模型的演进历史(二).sz
- 03-03、从AI到AGI到ASI(一).sz
- 03-04、从AI到AGI到ASI(二).sz
- 03-05、Transformer核心原理.sz
-
第04周:大模型微调与落地(下)
- 04-01、Transformer核心原理的演示.sz
- 04-02、知识工程与多模态RAG.sz
- 04-03、微调方法与参数高效训练(一).sz
- 04-04、微调方法与参数高效训练(二).sz
- 04-05、提示词工程和模型压缩优化.sz
- 04-06、实战:可溯源的问答助手.sz
-
第05周:多模态全景认知
- 05-01、多模态的定义与边界.sz
- 05-02、多模态数据与表征.sz
- 05-03、多模态模型架构.sz
- 05-04、多模态任务类型.sz
- 05-05、多模态应用场景.sz
- 05-06、多模态实战.sz
- 05-07、音频模态扩展.sz
-
第06周:虚拟人生成与交互技术
- 06-01、虚拟人生成全景.sz
- 06-02、图像生成与条件控制(一).sz
- 06-03、图像生成与条件控制(二).sz
- 06-04、虚拟人的大脑.sz
- 06-05、虚拟人的声音情感.sz
- 06-06、虚拟人的口型与驱动.sz
- 06-07、虚拟人直播.sz
- 06-08、虚拟人案例实操.sz
-
第07周:多模态 OCR 与智能翻译链路
- 07-01、OCR的全景认知.sz
- 07-02、传统OCR技术机制.sz
- 07-03、生成式与Transformer式OCR(一).sz
- 07-04、生成式与Transformer式OCR(二).sz
- 07-05、版面与表格结构解析.sz
- 07-06、手写OCR与多语种.sz
- 07-07、OCR到翻译链路与RAG落地.sz
-
第08周:视觉定位与跨模态融合感知
- 08-01、视觉和语言任务总览.sz
- 08-02、视觉问答.sz
- 08-03、视觉定位.sz
- 08-04、图像计数和视觉推理.sz
- 08-05、图像-文本生成和跨模态融合策略.sz
- 08-06、注意力机制与可视化.sz
- 08-07、综合实战与评估指标.sz
-
第09周:文本到 SQL(NL2SQL)与多表推理
- 09-01、NL2SQL的核心价值.sz
- 09-02、Schema对齐与语义消歧.sz
- 09-03、NL2SQL的技术对比(一).sz
- 09-04、NL2SQL的技术对比(二).sz
- 09-05、适合复杂场景的策略.sz
- 09-06、数据表查询助手.sz
-
第10周:医疗影像分析与智能报告生成
- 10-01、医疗影像分析与行业落地.sz
- 10-02、医疗多模态数据预处理与隐私合规.sz
- 10-03、核心模型深度解析(一).sz
- 10-04、核心模型深度解析(二).sz
- 10-05、核心模型深度解析(三).sz
- 10-06、医疗报告生成.sz
- 10-07、医疗知识图谱与多模态融合应用.sz
- 10-08、实战:多模态辅助诊断系统搭建.sz
-
第11周:多模态模型高效训练与优化
- 11-01、高效训练挑战与工程全貌.sz
- 11-02、数据对齐与预训练策略.sz
- 11-03、分布式并行全栈解析(一).sz
- 11-04、分布式并行全栈解析(二).sz
- 11-05、高级轻量化技术全策略(一).sz
- 11-06、高级轻量化技术全策略(二).sz
- 11-07、多模态高效训练与部署.sz
-
第12周:多模态模型评估体系与推理优化
- 12-01、综合评估体系与业务指标.sz
- 12-02、推理计算与底层算力.sz
- 12-03、显存调度机制优化.sz
- 12-04、推理引擎架构剖析(一).sz
- 12-05、推理引擎架构剖析(二).sz
- 12-06、基于vLLM的Qwen部署.sz
-
第13周:具身智能的多模态感知与决策控制
- 13-01、具身智能前沿与VLA模型(一).sz
- 13-02、具身智能前沿与VLA模型(二).sz
- 13-03、低成本构建数字孪生世界.sz
- 13-04、从硬件到模拟现实的跨越.sz
- 13-05、仿真学习以及强化学习的工程化实战.sz
-
第14周:科研趋势发展与前沿探索
- 14-01、多模态前沿论文精读(一).sz
- 14-02、多模态前沿论文精读(二).sz
- 14-03、世界模型技术演进.sz
- 14-04、智能体革命与落地项目.sz
- 14-05、从多模态到全模态交互.sz
-
第15周:多模态大模型安全防护
- 15-01、多模态特有的安全机理与漏洞(一).sz
- 15-02、多模态特有的安全机理与漏洞(二).sz
- 15-03、红队测试与鲁棒性评估.sz
- 15-04、工业界风控落地.sz
- 15-05、可信AI的建设.sz
课程总大小: 19465.20 MB
极客时间-2026年多模态大模型训练营的课程内容以“系统化进阶+场景化快充”双轨学习路径为核心,覆盖从基础理论到企业级落地的完整闭环,旨在帮助开发者实现从单模态算法专家到全域智能架构师的能力跃迁。
一、三大模块递进式学习体系
-
基础理论模块(4周)
- 核心概念解析:深入讲解预训练、监督微调(SFT)、偏好优化(DPO)等主流训练范式。
- 模型架构拆解:以InternVL2-2B等开源模型为例,剖析多模态大模型的结构设计与参数调优技巧。
- 工具链上手:快速掌握HuggingFace生态中的AutoProcessor、pipeline等多模态开发工具。
-
实战项目模块(6周)
聚焦真实行业场景,通过九大实战项目强化工程落地能力:- 智能商品卡片生成器
- 领域知识问答溯源助手
- 时尚导购与智能客服
- 虚拟数字人直播解决方案
- 智能合同解析
- 跨模态智能理解
- 智能数据报表查询助手
- 医疗影像辅助诊断原型
- 高性能跨模态检索系统
-
高级扩展模块(3周)
- 模型蒸馏与轻量化部署,适配边缘设备
- 多模态安全防御机制构建
- 科研前沿趋势追踪:具身智能、动态评估专家系统等
二、覆盖全栈的技术能力图谱
- 多模态核心技术:掌握CLIP、DINOv2、SAM2等视觉语言模型原理与应用
- 主流开发技术:图像分类、对象检测、OCR识别、零样本异常检测、小样本训练、知识蒸馏等
- 跨模态融合能力:文本→图像→视频生成链路、NL2SQL多表推理、跨模态检索与生成
- 工程化思维培养:MCP多智能体协作协议、可插拔意图识别、热更新机制
三、聚焦高价值行业应用场景
- 电商领域:结合用户行为数据生成动态商品描述,优化推荐策略
- 医疗领域:融合CT影像与病历文本实现辅助诊断,降低误判率
- 创意产业:集成Stable Diffusion、Make-A-Video等工具链,实现AI工业化内容生产
- 工业质检:构建视觉+声音信号的多模态监控系统,预测设备故障
四、伦理与安全双重保障
- 数据隐私保护:设计匿名化处理流程
- 模型公平性:优化训练数据分布,减少偏见
- 安全防护体系:第十三周专项讲授多模态大模型安全防护机制
该课程强调“理论筑基→实战强化→场景拓展”的渐进路径,已帮助超2万名开发者完成职业跃迁,部分学员项目实现商业化落地并获天使轮融资。
本站所有资料均来源与网络以及用户发布,如对资源有争议请联系微信客服我们可以安排下架!
