开源音视频服务调研报告

现状

在现在的**产品中，我们提供音视频通话的功能。支持发起用户级一对一的音视频通话，群组级多人参与的音视频会议，以及将单人电脑屏幕投屏给多个参会人的会议场景。

技术架构：

1、音视频信令服务（**自研）

2、Jitsi开源音视频服务（私有化部署）

现存问题

问题一

Jitsi的服务端以Java作为主要开发语言，来提供音视频流的转发服务。**的服务端以Golang为主要语言开发，提供**App用户鉴权等业务能力。由于开发语言不同，在音视频服务与**业务服务的通信过程中，需要编写更多的胶水代码来对接两个服务。

问题二

移动客户端SDK同时集成了音视频服务通信，连接状态维护与前端展示UI逻辑。Jitsi堆砌的功能非常多，导致整个SDK的代码复杂度很高。当**业务需要个性化定制某些功能逻辑时，必须在维护Jitsi代码逻辑的基础上，才能正常推进。有的UI逻辑会碰到Jitsi的代码逻辑与**业务相违背的情况，增加定制难度。

问题三

Jitsi框架使用React Native作为移动端跨平台实现方案，主要开发语言为Java Script，与**目前以Flutter为主的跨平台相违背，开发人员技术栈不兼容，功能后期维护成本高。

解决方案

基于现在的技术架构，我们可以选择使用新的音视频方案对接**的自研音视频信令服务，平滑替换掉的Jitsi音视频服务。

在选择新方案时，优先考虑的几个条件：

1、服务端使用Golang作为开发语言，方便后期与**业务通信。

2、客户端SDK复杂度适中，降低二次开发的难度。

3、客户端SDK使用Flutter跨平台方案，或为原生平台方案。

本次调研涉及的开源方案

1、Jitsi（https://github.com/jitsi/jitsi）

2、OpenVidu（https://github.com/jitsi/jitsi）

3、Pionion（https://pionion.github.io）

4、LiveKit（https://livekit.io）

Jitsi

优点：

1、部署容易，可水平扩展

2、提供JS、React、React Native的客户端SDK

3、服务端基于Java编写

4、适合大流量的音视频，支持P2P

缺点：

1、缺少HTTP接口

2、后期二次开发复杂（涉及xmpp协议，lua脚本，jicofo/jvb等Java后端模块）

3、缺少文档

OpenVidu

优点

1、流媒体服务器基于Kurento（WebRTC SFU）框架开发

2、提供JS、React、Vue、React Native的客户端SDK

3、文档详细。

3、提供Webhook（可以监控每个房间的具体信息）

缺点

1、服务端基于Java编写，使用Springboot框架

2、不支持P2P通话，需要流媒体服务器中转

3、由于Sesson的逻辑限制，服务水平扩展需要二次开发

Pionion

优点：

1、服务端基于Golang开发

2、提供JS、Flutter的客户端SDK

3、社区活跃

4、信令与媒体服务解耦，易于扩展

缺点

1、缺少文档

2、无原生平台SDK

3、框架处于快速迭代期，稳定性不佳

LiveKit

优点：

1、使用可水平扩展的WebRTC 可选转发单元（SFU），可基于Redis水平扩展

2、提供JS、React、Swift、Kotlin、Flutter的客户端SDK

3、服务端基于纯Go语言，可单二进制部署

4、文档详细

5、提供JWT身份验证、服务端API（Go）

6、提供UDP、TCP通道，内置TURN/TLS

7、单节点性能高（10个演讲者+1000个听众，或4个视频源+400个观看者）

缺点：

1、不支持P2P通话，需要流媒体服务器中转

2、客户端SDK功能简单，需重新业务定制

3、官方demo缺少客户端断线重连逻辑

结论

基于调查结果，我们将选用LiveKit作为升级方案。

Livekit服务端使用Golang语言，方便后期与**业务的通信。同时提供JS、Flutter、iOS/Android原生平台的SDK，可以使**现有的PC、Mac、Android、iOS客户端快速替换现存音视频服务。使用对应平台的开发语言，可以降低开发人员在业务定制上的难度，同时减少后期的维护成本。

介绍市面上常用的音视频方案

现状