视频转码与广播流水线
我们设计并运营专业的视频转码系统——HLS、LL-HLS、CMAF 与 DASH 分发、IMF 与 ProRes 母带制作、任意大小母版副本的批处理、AI 驱动的广告插播点检测、微服务架构(配备 workers 和 AI agents),以及在 CPU、GPU 和 NETINT 等专用 VPU 上的硬件加速转码。
多格式转码:HLS、CMAF、DASH、IMF、ProRes
我们打造的转码器,讲的是现代广播与 OTT 的语言。从面向 Apple 设备和智能电视的 HLS、面向流媒体的低延迟 CMAF 与 DASH 配合 per-title ABR 阶梯,到面向后期制作的 IMF 母带制作与 ProRes 中间码流——您的内容在格式之间无损流转,带有确定性时序、帧级精准剪辑与完整可审计的元数据。
在底层,我们与真实规范打交道:用于跨 DRM 打包的 ISO/IEC 23001-7 Common Encryption(CENC)、带 SegmentTimeline 与 SegmentTemplate 的 MPEG-DASH(ISO/IEC 23009-1)、HLS 的 RFC 8216bis、CMAF 的 ISO/IEC 23000-19、IMF 的 SMPTE ST 2067,以及 SDI/IP 广播的 SMPTE ST 2110。我们选择正确的清单类型、分片时长、编解码器 profile/level/tier——并将每一个决策记录在文档中,让您的运维团队能够复现、扩展并交付到生产环境。
- HLS / CMAF / DASH 打包,配合 ABR 阶梯与 per-title 编码,在每一个码率、每一种设备上都达到最佳质量。
- IMF(Interoperable Master Format)接收与组装,处理 CPL/PKL/OPL 与补充包。
- Apple ProRes 422/4444/HQ/XQ 中间码流、DNxHR/DNxHD、JPEG 2000 与无压缩母带制作。
- 帧级精准的音频映射(5.1 / 7.1 / Dolby Atmos)、字幕、SCTE-35 标记,完全符合 SMPTE。
HLS 流媒体深度解析:LL-HLS、FairPlay 与 Interstitials
HLS 仍是流媒体的主导协议——从 Apple TV 与 iOS,到智能电视、机顶盒与 Android。我们构建覆盖各种形态的 HLS 流水线:面向最大设备兼容性的传统 MPEG-TS、面向现代播放器的 fMP4/CMAF、面向实时分发的 Low-Latency HLS,以及面向高级版权保护的 FairPlay Streaming。一条流水线,任何屏幕,行为可预测。
完全符合 Apple HLS Authoring Specification(Tier 1)要求:多 rendition 清单、IMSC1 字幕、AAC LC 与 AC-4 音频变体、HEVC Main 10 配合 Dolby Vision profile 8.4 以及 HDR10 回退。对于 LL-HLS,我们精细调优 partial 分片时长(200-500 毫秒)、part-target 值、EXT-X-PART independent 标志、用于下一个 part 的 EXT-X-PRELOAD-HINT,以及通过 _HLS_msn / _HLS_part 查询参数实现的 blocking playlist reload。结果是:播放器喜爱的清单,Apple 的 mediastreamvalidator 一次验证通过。
- LL-HLS(低延迟 HLS),配合 partial segments、EXT-X-PART、preload hints 与 blocking playlist reload——直播事件的端到端延迟低于 3 秒。
- 基于 fMP4/CMAF 的 HLS,采用 byte-range 分发与通用加密(CENC)——HLS 与 DASH 共享同一组分片,文件更少、存储成本更低。
- HLS Interstitials 用于拼接式直播广告、服务器引导的 mid-roll、动态广告替换与内容垫片画面——不会中断播放器会话。
- FairPlay Streaming、AES-128 与 SAMPLE-AES 加密、与 Widevine 和 PlayReady 的 multi-DRM——为直播与 VOD 提供好莱坞级别的内容保护。
CMAF 与分块低延迟流媒体
CMAF(Common Media Application Format,ISO/IEC 23000-19)是现代自适应流媒体的基石——一组 fMP4 分片、一个共享 init、两份清单(HLS 与 DASH)。我们设计的 CMAF 资产结构,可以从单一 origin 在 iOS、Android、浏览器和智能电视上播放,内容比特级一致,打包成本显著降低。重复更少、CDN 账单更低、审计更简单。
为了实现低延迟,我们超越规范本身:200 毫秒的 CMAF 分块、origin 与 CDN 上的 HTTP Chunked Transfer Encoding(CTE)、采用 $Time$ 寻址的 DASH SegmentTimeline、availabilityTimeOffset 调优,以及播放器侧针对分块对齐 ABR 切换的调整。配合 HTTP/2(或 HTTP/3 / QUIC)与正确调优的 CDN 缓存,我们达成 2-4 秒的端到端延迟与完整 ABR——与 LL-HLS 相当,但播放器支持更广泛,资产图也更简洁。
- CMAF 资产结构化:common-init、common-encryption(CENC)与共享 fMP4 分片——一份资产库,所有播放器通用。
- Low-Latency CMAF(CMAF-LL)配合分块 CTE 投递、DASH SegmentTimeline、availabilityTimeOffset 与播放器调优,实现分块对齐 ABR。
- CMCD / CMSD(Common Media Client/Server Data)header,跨投递链路提供精准 QoE 遥测——从播放器一路追溯到 origin。
- 在同一 fMP4 上的 DRM 打包(CENC)——FairPlay(cbcs)、Widevine 与 PlayReady(cenc/cbcs)共用单一资产,multi-DRM 权限管理。
IMF 母带文件与 IMAF 交互式音频母带制作
IMF(Interoperable Master Format,SMPTE ST 2067)是高端内容投递的通用语言——Netflix、Apple TV+、Amazon Prime Video 与好莱坞主要片厂都在使用。我们端到端组装并验证 IMF 包:OPL(Output Profile List)、CPL(Composition Playlist)、PKL(Packing List)与 ASSETMAP——配合 MXF 封装、JPEG 2000 视频本质、MGA / Dolby Atmos 音频与 IMSC1 字幕。每一个包都依据 IMF Application 2 / 2E / 4 / 5 与 Netflix Originals Delivery Specifications 进行验证。
面向交互式与沉浸式音频,我们进入 IMAF(Interactive Music Application Format,ISO/IEC 23000-12)与基于对象的格式——Dolby Atmos ADM BWF、MPEG-H 3D Audio,以及带 JOC 的 AC-4。我们打造的母带制作工作流处理独立 stems、组结构、presentation rules 与沉浸式 bed 通道,与 IMF 视频轨保持帧级同步。同一条流水线,即可从一个源头产出广播交付件、OTT 中间码流以及交互式音乐母带。
- 面向广播的 IMF Application 2/2E 与面向影院的 4/5——CPL/PKL/OPL/ASSETMAP 制作,完全符合 SMPTE ST 2067。
- JPEG 2000(J2K)中间码流编码,MXF OP1a 封装,精确到时码地插入 supplemental 包与 version-edits。
- 基于对象与沉浸式音频——Dolby Atmos ADM BWF、MPEG-H 3D Audio、IMAF 交互式多轨母带、广播用 AC-4 / E-AC-3 JOC。
- 依据 Netflix Photon、Apple TV+ delivery specs、Amazon AIV 以及广播商 ingest 配置进行验证——首次提交即通过。
任意大小母版副本的批处理
数 TB 级的工作室母版、数千个遗留归档文件、每日的 VOD 投递——我们的流水线就是为此而生。我们设计跨区域、跨存储层级横向扩展的分布式批处理,具备智能分片、可恢复任务以及每分钟可预测的处理成本。
- 面向 GB 到 PB 级媒体库的分布式批量转码,任务可恢复且具备幂等性。
- 智能任务编排:优先级队列、SLA 感知调度、面向直播与时效内容的截止驱动编码。
- 成本可控:逐任务遥测、可预测的编码预算,以及计算资源的自动 right-sizing。
AI 广告插播点检测与智能投放
广告到底应该插在哪里?我们打造 AI 模块,观看您的内容并精准回答这个问题。结合场景切换检测、音频静默分析、镜头语法和内容感知 ML 模型,我们识别最自然的广告插播点——既保护观看体验,又最大化变现。
- AI 检测最佳广告插播点:场景边界、对话间隙、动作平缓段与章节过渡。
- 自动生成并向 HLS / DASH / CMAF 流中插入 SCTE-35 / SCTE-104 标记。
- 品牌安全与内容分类,避免广告紧邻敏感场景投放。
多微服务架构,配备 workers 与 AI agents
视频流水线一旦失败,声音就会很大。我们的设计就是不让它失败。我们将工作流拆解为聚焦的微服务——ingest、probe、transcode、package、QC、deliver——每一个都作为独立的 worker 池运行,具备严格契约。AI agents 凌驾其上,实时决策路由、重试、质量回退与资源分配。
- 面向 ingest、probe、转码、打包、QC 与 CDN 投递的模块化微服务,每一个都可独立扩展。
- 运行在 Kubernetes / Nomad 之上的 worker 池,具备自动扩缩、优先级队列(RabbitMQ、NATS、Kafka)与 exactly-once 语义。
- AI agents 负责自适应调度、异常检测、质量评分(VMAF/PSNR/SSIM)与自愈恢复。
- 完整可观测性:分布式追踪、逐资产审计日志、OpenTelemetry 指标与 SLA 仪表板。
硬件加速转码:VPU、GPU、CPU 与 NETINT
CPU 上耗时 30 分钟的 4K HDR 编码,在 NETINT VPU 上只需 3 分钟。我们打造混合转码农场,将每个任务匹配到合适的芯片——专用 VPU 用于 24/7 高密度频道、GPU 用于 AI 增强工作流、CPU 用于高端质量与边缘场景——把您手中硬件的每一分效率都榨出来。
我们的 NETINT 集成,绝不是「丢进 FFmpeg,听天由命」。我们直接通过 libxcoder SDK 与 NETINT 提供的 FFmpeg 补丁与 Quadra T1A、T2A 系列对接:经由片上 scaler 进行明确的 YUV 流水线路由、用于品牌水印的硬件 overlay/blend、广播级质量的 AV1 编码(NETINT Quadra 是少数支持硬件 AV1 的 ASIC 之一),以及在同一颗芯片上完成场景切换检测、Logo 遮罩与质量评分等 AI 推理任务。对于 NVIDIA,我们基于真实的 per-title VMAF 曲线(而非出厂默认值)调优每一个 NVENC 参数——preset(p1-p7)、tuning info(UHQ/HQ/LL)、rate-control mode(CBR-HQ / VBR-HQ)、lookahead、B-frame 结构与 adaptive quantization。同样的深度也适用于通过 oneVPL 调用的 Intel Quick Sync、通过 AMF 调用的 AMD VCN,以及面向 golden-master 交付的 CPU 编解码器(x264 --tune psnr/ssim、x265 --no-sao、SVT-AV1 preset 4-8、VVenC)。
- 集成 NETINT Quadra VPU,以广播级质量进行超高密度的 H.264 / H.265 / AV1 编码。
- GPU 加速,使用 NVIDIA NVENC / NVDEC、AMD VCN 与 Intel Quick Sync / Arc,打造低成本高吞吐的流水线。
- CPU 编码,使用 x264 / x265 / SVT-AV1 / VVenC,针对高端 VOD 与 golden-master 交付进行调优。
- 混合调度将每个任务分发到最合适的加速器——在能耗、时间与云账单上带来可衡量的节省。
希望构建或升级视频转码平台?联系我们,我们将为您的格式、硬件与业务目标设计一条高性能流水线。


