Como o módulo transceptor 400G QSFP-DD foi testado?

O módulo transceptor 400G QSFP-DD é a especificação de pacote principal para interfaces de cliente 400G. O artigo a seguir compartilhará os principais fatores para testes bem-sucedidos, solução de problemas e verificação de módulos QSFP-DD para designers de redes ópticas, fabricantes de componentes de rede e usuários finais.

As velocidades da interface do cliente estão aumentando constantemente, com taxas típicas aumentando pelo menos dez vezes a cada década. 100GE foi amplamente implantado por meio da interface QSFP28, e estamos nos estágios iniciais da implantação 400G. O IEEE1 desenvolveu o padrão de interface de cliente Ethernet 400G como parte do 802.3.bs, que foi oficialmente padronizado em dezembro de 2017. Os primeiros a adotar estão usando a especificação do pacote CFP-8, mas o mercado mais amplo está focado no QSFP-DD, que permite um grau de compatibilidade com versões anteriores com o QSFP28 amplamente adotado.

Como a Ethernet tem uma ampla gama de aplicações e está disponível com uma gama de PMD (dependente do meio físico), ela permite que um único slot “QSFP-DD” suporte um grande número de aplicações, variando de vários metros de cabo DAC de cobre passivo a 80 km de ZR coerente. Existem também algumas empresas que se concentram em especificações de empacotamento OSFP. Embora não seja tão extenso e compatível com versões anteriores, ele oferece algumas vantagens em termos de integridade de sinal elétrico e gerenciamento térmico. A maior parte do que se segue sobre QSFP-DD se aplica ao OSFP e à família VIAVI ONT, que oferece suporte a muitas aplicações baseadas em OSFP.

O 400G conta com modulação de alta ordem (PAM-4) tanto para a interface elétrica do módulo para o host quanto para o PMD elétrico ou óptico. A modulação PAM-4 é usada para maximizar a capacidade de dados para uma determinada largura de banda, mas apresenta desafios significativos em termos de complexidade e desempenho, o que também significa que o link requer codificação de correção de erros (FEC) para implementar uma transmissão de dados confiável.

Por que escolher QSFP-DD?

A Ethernet 100G foi implantada em 2008 com designs iniciais baseados em módulos conectáveis ​​CFP. A segunda geração de sistemas migrou para o CFP2 (ou CPAK de um grande fabricante de equipamentos) e, em seguida, escolheu o QSFP28, o que impulsionou a adoção de volume ampla e econômica. O CFP4 foi um desafio anterior para o QSFP28, mas o QSFP28 gerou um crescimento significativo de 100G devido a muitos fatores. A indústria está atenta à importância das especificações de embalagem e deseja minimizar a complexidade adicional e os desafios de custo associados à evolução em várias etapas das especificações de embalagem 400G. O CFP8 permite que os usuários iniciantes desenvolvam e validem 400G. No entanto, ele não atendeu aos requisitos de densidade, potência, custo e “compatibilidade”, então a indústria rapidamente adotou o QSFP-DD como alvo. E alguém surgiu com uma alternativa, OSFP, que oferece excelentes soluções técnicas, mas não atendeu à necessidade urgente de suporte de interface de transceptores legados tradicionais. Em princípio, a porta óptica QSFP-DD poderia suportar o módulo óptico tradicional QSFP-28 – isso permitiria que os fabricantes de switches enviassem dispositivos de 400G que poderiam ser enviados junto com módulos de 100G, e a atualização no local seria uma simples substituição de módulo.

Algumas melhorias foram feitas no QSFP28 existente para atender às demandas de maior largura de banda, energia e resfriamento da mudança para 400G. Esses aprimoramentos incluem a duplicação do canal de porta elétrica de alta velocidade (de um aprimoramento NRZ de 4 Gbps de 25 canais para um PAM-8 de 56 Gbps de 4 canais) e uma extensão do "front end" do módulo para fornecer maior volume e desempenho térmico aprimorado. Além disso, outros trabalhos foram realizados para aprimorar a interface de controle do módulo levando ao padrão CMIS 4.05.

Módulo 400G DR4

A 400G QSFP-DD DR4 é uma das interfaces ópticas de cliente 400G mais comuns implantadas em 2020. Ele transmite 400G na forma de quatro sinais 100G em fibras monomodo separadas. Tem uma ampla gama de aplicações em empresas. Ele suporta cobertura de 500 m e é capaz de se conectar a um link Ethernet 100G separado, tornando-o atraente como uma solução 100G de alta densidade, que pode quadruplicar a densidade de contagem de portas.

Módulo 400G FR4

A 400G QSFP-DD FR4 interface também terá uma ampla gama de aplicações, incluindo telecomunicações. Ele fornece um orçamento de link de 2 km a mais por meio de uma fibra óptica de modo único. O 400G é transportado por quatro sinais de 100G, cada um com um comprimento de onda ligeiramente diferente.

O 400G é transportado em quatro sinais de 100G, cada um em

Módulos PMD 400G (dependente do meio físico)

PMDFale ConnoscoSolicitaçõesInovadora
DAC2 para 3 mIntra-rack e servidorCabo de cobre passivo, 50G PAM-4 elétrico
SR8100 mEmpreendimentoMultimodo paralelo, 50G/λ – PAM-4
DR4500 mDatacenter e empresaModo único paralelo, 100G/λ – PAM-4
FR42 kmDatacenter de grande escalaModo único, 100 G/λ, PAM-4
LR810 kmAlcance de telecomunicaçõesModo único, 100 G/λ, PAM-4
ZR80 kmMetrô e DCIModo único/coerente, PAM-4

Padrões e Temas of QSFP-DD

Muitos padrões e MSA são aplicáveis. Também é importante entender os testes críticos para cada fase do ciclo de desenvolvimento, desde a avaliação básica do IC até a integração de hardware do módulo, software e firmware, até a seleção e aceitação do fornecedor. A produção também tem seu próprio conjunto de requisitos críticos de teste.

Uma sólida compreensão dos principais documentos, como IEEE, CMIS, QSFP-DD, MSA e OIF, é necessária para projetar, testar, verificar, fabricar e implantar módulos e dispositivos ópticos conectáveis ​​com sucesso. QSFP-DD é a combinação perfeita de eletrônica, óptica, mecânica, gerenciamento térmico e integração de firmware. Todos os componentes devem trabalhar juntos antes que o módulo possa ser implementado com sucesso.

Interoperabilidade

A grande vantagem do ecossistema de interface do cliente Ethernet é que temos um conjunto forte e claro de padrões orientados pelo IEEE e outros padrões que permitem que ecossistemas de vários fornecedores interoperem sem recorrer a links "projetados".

Tanto a interface de módulo para host quanto a interface de módulo para fibra são fundamentais para essa interoperabilidade. Na interface host-to-module, focamos em três áreas principais:

  • Os caminhos de dados de alta velocidade (AUI) construídos do chip ao módulo (C2M) enfrentam vários desafios, incluindo integridade e balanceamento de sinal. Embora uma parte do orçamento do FEC seja alocada a essa parte do link, quaisquer problemas com essa interface podem causar problemas significativos no link. Links mal “sintonizados” (em termos de equalizadores e canais) podem levar a problemas intratáveis, como rajadas aleatórias ou, no pior caso, deslizamento acidental de bits.
  • Gerenciamento de módulo – Esta interface baseada em I²C evoluiu do gerenciamento básico de mapeamento de memória do SFF-8636 para o 100G QSFP28 para o CMIS 4.0 completo de estado complexo. Essa evolução é extremamente desafiadora para o ecossistema, e um sólido conhecimento prático da documentação do CMIS 4.0 é a chave para um gerenciamento de módulo robusto e estável.
  • Alimentação do módulo – Para conexão coerente conectável (QSFP-DD ZR) para aplicações DCI, os requisitos de energia do módulo aumentaram de alguns watts a 100G para possivelmente perto de 20W. Isso apresenta altos requisitos para a robustez e estabilidade da fonte de alimentação. Além disso, deve ser capaz de fornecer características dinâmicas e transitórias de demanda de energia quando o módulo é despertado.

Essas áreas estão intimamente interligadas e precisam ser tratadas como um todo (especialmente no contexto do gerenciamento de módulos CMIS 4.0) para garantir que os módulos funcionem sem falhas.

PAM-4

Tanto os links elétricos (módulo para interface do host) quanto os ópticos (elétricos) são modulados por PAM-4. Este esquema de modulação de ordem superior permite dobrar o número de bits enviados por unidade de tempo. Enquanto a tecnologia NRZ é amplamente utilizada e madura para altas velocidades, o SERDES PAM-4 é uma tecnologia relativamente nova, mais complexa e desafiadora. Temos uma vasta experiência na análise de erros de bits de links NRZ. Mas ainda vemos problemas com o canal 10G a 25G NRZ usado em 100GE. Portanto, espera-se que a mudança para o PAM-4 seja um desafio significativo para toda a indústria. Isso é ainda mais complicado pelo uso de links baseados em FEC, que sempre têm BER de fundo e equalização de canal muito mais complexa. Para ser justo, o PAM-4 é uma ordem de magnitude mais complexa do que o amplamente utilizado 25G NRZ.

Modulação NRZ

Modulação PAM4 não cinza

Codificação cinza de modulação PAM4

FEC

Como era desafiador desenvolver um componente que pudesse fornecer transmissões PAM-4 sem erros, os desenvolvedores usaram um FEC que pudesse proteger tanto a interface do módulo elétrico quanto a interface óptica módulo a módulo. Colocamos muito esforço em uma compreensão cuidadosa do mecanismo de erro de bit no canal de transmissão e componentes, e como o “custo” da lógica FEC (codificação e recepção) é equilibrado. O “custo” do FEC inclui circuitos adicionais que consomem energia e podem aumentar o atraso de qualquer link.

DSP e equalizador

Em 400G, decidiu-se usar o conceito de um equalizador de recepção elétrica “poderoso” para enfrentar o “pior caso” do transmissor e o desempenho do canal “pior caso”. Isso pode levar ao fechamento do padrão de olho PAM-4 na entrada do receptor PAM-4, de modo que o receptor PAM-4 requer um receptor poderoso e possivelmente complexo para equilibrar os efeitos de transmissão e canal para recuperar um padrão de olho claro para obter a decodificação correta de um determinado símbolo. A complexidade do equalizador significa que, na maioria dos casos, soluções baseadas em DSP precisam ser implementadas, o que pode ter impacto na energia, atraso, complexidade, desempenho de erros de bits e gerenciamento ou controle. Embora os equalizadores DSP sejam poderosos, a complexidade de sua funcionalidade pode levar a desafios, como encontrar as melhores configurações para toques. Além disso, o equalizador geralmente fica oculto atrás do firmware DSP e da API de controle, tornando-o altamente abstrato para o usuário. A medição do TDECQ6 apresenta desafios adicionais – essa medição é complexa e pode não ser consistente, o que aumenta ainda mais o desafio de um ecossistema de vários fornecedores livremente interoperável.

Pontos chave

Sempre haverá erros de bits – os links agora sempre têm taxas de erro de bits em segundo plano. A “impressão digital” das estatísticas de erro de bit é crucial. Os fluxos BER aleatórios verdadeiros geralmente são compatíveis com o FEC usado para proteger o link. Mas rajadas, deslizamentos e outros problemas determinísticos podem degradar severamente a capacidade de correção de erros do FEC. Em um link real, o BER pode ser uma mistura complexa de ruído de canal elétrico e óptico, diafonia, problemas de integridade de sinal, rajadas, deslizamentos de bits e até proliferação de BER devido a equalizadores configurados incorretamente.

Em última análise, o que importa é como o FEC se comporta quando recebe uma impressão digital BER específica. Qual é a margem? Quanto tempo levará até recebermos os pacotes descartados? Podemos prever o desempenho de longo prazo para entender a degradação do link? Quais são as causas da BER?

Várias ferramentas podem ser usadas para investigar as características do BER, desde o viés de erro em elementos de código PAM-4 individuais até a análise de rajadas de natureza bit-slip. A compreensão do viés de BER pode ser aprimorada ainda mais por ferramentas como variação de clock e skew.

A análise de símbolos do PAM-4 pode ser usada para garantir que não haja viés de “nível” na distribuição de erros de bits. A estabilidade dos principais elementos fotônicos (como o receptor fotônico AGC) pode ser verificada ainda mais observando a variação na potência de tempo da distribuição de erro PAM-4-bit (através de um atenuador).

É importante investigar completamente as rajadas de erro de bit e confirmar se elas são rajadas e não derrapagem de bit (ou símbolo). O deslizamento geralmente está associado ao DSP (e ao firmware associado) e não pode ser corrigido pelo FEC. Testes gerais não podem distinguir entre problemas de rajada causados ​​por problemas clássicos de integridade de sinal ou ruído e problemas de rajada relacionados ao clock e sensibilidade de fase. Como resultado, várias novas ferramentas e técnicas devem ser implantadas para investigar a natureza e a causa raiz dos erros de bit QSFP-DD.

A visualização de nível superior mais simples pode ser obtida observando o número de erros de elemento de código de 10 bits por palavra de código FEC de 5440 bits (KP4 FEC). Normalmente, esperamos que uma contagem distribuída monotonicamente por símbolo diminua em cerca de 10. Ou seja, para cada símbolo/palavra-código incorreta adicional, esperamos que o número de erros diminua em 10. Quaisquer caudas longas ou picos isolados são indicativos de alguns não- causa aleatória (sistemática). Também esperamos que o número de símbolos de erro aumente por um fator de 10 no tempo de medição. Assim, se observarmos uma contagem de 10 símbolos de erro por palavra de código após 10 segundos, esperamos ver 11 contagens de símbolos de erro após cerca de 100 segundos.

Essa regra prática pode ser usada para estimar o tempo até um erro incorrigível (16 ou mais erros por palavra de código). Por exemplo, após 100 horas de tempo de teste, se observarmos no máximo 12 símbolos/palavras de código de erro, esperaríamos a seguinte aproximação:

Símbolos com erroTempoNotas
12100 horasMedição
131000 horasEstimativa
14~ 420 dias
15~11 anos e meio
16 (erro incorrigível)~ 114 anosPrimeiro pacote descartado após > século

FEC – Símbolo de erro/palavra de código

No caso abaixo, o ONT opera usando um link de fibra de 400 G severamente atenuado, de modo que erros de bits significativos ocorram em um intervalo de 10 minutos. Isso é o que se pode esperar de um link compatível. Como você pode ver, a distribuição é geralmente monótona. A contagem por símbolo de erro cai, mas mostra uma cauda ligeiramente mais longa do que 12 símbolos de erro/palavra-código. Nesse caso, é provável que o link descarte o pacote devido a uma palavra de código não corrigida.

um ONT foi deixado em execução com um link óptico de 400G que foi fortemente atenuado

A captura de tela abaixo mostra uma situação em que ocorre um problema sério. Embora o FEC tenha uma grande margem (podemos ver até quatro símbolos de erro em uma palavra de código), a distribuição não é monotônica, sugerindo uma fonte potencial de erros de bits neste sistema. Observe que este exemplo de link de 100G foi gerado por um aplicativo VIAVI ONT especial que cria extensas distribuições de erros FEC para testes de estresse e verificação da lógica FEC e integridade de energia.

sistema tem uma fonte de erro subjacente no trabalho

O ONT pode não apenas analisar a distribuição de erros de bits e o tipo de código em toda a sequência, mas também rastrear as características de erros de bits com base em cada símbolo PAM-4.

ONT tem a capacidade de analisar distribuições de erros e padrões

Uma variação de inclinação dinâmica é uma ferramenta poderosa para testes de estresse e verificação do Módulo QSFP-DD. Ele pode ser usado para verificar a conformidade com os padrões IEEE802.3 e a estabilidade geral do DSP e do firmware associado. Isso é especialmente importante no módulo DR4, onde um par de canais elétricos e ópticos individuais pode estar localizado em domínios de relógio completamente diferentes!

A variação dinâmica de inclinação é uma ferramenta poderosa para enfatizar e validar os módulos QSFP-DD

A captura de tela acima mostra a aplicação de inclinação dinâmica do PAM-4. Ele é capaz de controlar com precisão o tempo relativo do canal de transporte em relação à interface do usuário, mantendo mudanças de fase “ininterruptas”, o que é fundamental para resolver problemas desafiadores, como problemas de tempo de firmware baseados em DSP e crosstalk.

A inclinação dinâmica (ou variação de inclinação) é um teste fundamental para qualquer sistema de comunicação de canal paralelo. Ele pode ser usado para teste e verificação de integridade de sinal (crosstalk) e também para teste de estresse e verificação de desempenho de FIFO e CDR no PAM-4 SERDES.

Diferentes graus de distorção também podem ser usados ​​para investigar a integridade do sinal e problemas de diafonia, que têm uma ampla gama de aplicações em equipes de hardware e SI. O tempo do canal pode ser ajustado para garantir que a transição do canal da fonte de interferência ocorra no meio do padrão de olho PAM-4 do canal do objeto interferido.

Os sinais PAM-4 (por causa da margem de sinal baixo) são mais suscetíveis a crosstalk do que o NRZ clássico. Na densa faixa de QSFP-DD (especialmente ao redor do conector do host), os canais PAM-4 de alta velocidade são conectados muito próximos e deve-se tomar cuidado para evitar problemas de diafonia de sinal. Normalmente, o testador BER executa canais paralelos em uma fase fixa, então o “pior alinhamento de caso” pode não ocorrer sob o teste de estresse SI. Com a inclinação dinâmica, o canal de origem pode ser escaneado em fase relativa para verificar completamente que problemas não ocorrem, mesmo no pior cenário de mudança de fase. O usuário final só precisa observar se há um erro em um deslocamento de fase específico (geralmente quando o canal de origem tem uma transição de nível no meio do “diagrama de olho” do objeto interferido).

O SERDES moderno usa uma série de buffers FIFO para reprogramar e realinhar o sinal antes do processamento adicional dentro da estrutura do IC. O realinhamento usa uma série de buffers FIFO que recuperam o relógio da fonte de relógio principal (geralmente o canal principal através do CDR).

Se o sistema não for projetado ou implementado corretamente, é possível que variações de fase e mudanças entre o canal primário (canal de referência CDR) e outros canais estejam fazendo com que o FIFO fique desalinhado ou mesmo deslizando. Isso se manifestará como um bit-slip, que a análise avançada de erros do ONT pode rastrear como um bit-slip, em vez de um erro de rajada, como visto em equipamentos de teste tradicionais. Usando o aplicativo de inclinação dinâmica, o ONT pode testar intencionalmente o desempenho do CDR/FIFO no SERDES e tentar forçar um modo de falha por meio da inclinação (alcance e taxa). Isso, combinado com a análise BER avançada da ONT, fornece um sistema de teste muito poderoso e completo para testes SERDES e pode ser usado para resolver rapidamente problemas muito desafiadores em links 400GE que ocasionalmente causam derrapagem de bits. As distorções dinâmicas ONT PAM-4 podem forçar a geração desses BERs para ajudar a diagnosticar e resolver a causa raiz.

Tela de controle geral 400G QSFP-DD

O gerenciamento de módulo evoluiu ao longo do tempo do sistema básico baseado em registro SFF 8636 para o CMIS 4.0, que é um sistema de gerenciamento abrangente com status de módulo completo projetado para atender às necessidades de módulos mais complexos 400GE e superiores.

A estreita interação entre os módulos por meio de interfaces de controle I²C, pinos de alimentação e controle e caminhos de dados é essencial para a operação robusta e estável dos módulos. A complexidade do módulo é maior, especialmente para balanceamento de caminho de dados no módulo DSP, que requer uma compreensão mais abrangente da configuração e execução do controle entre o host e o módulo. No CMIS 4.0, comandos, operações e comportamentos de tempo devem ser bem coreografados na ordem correta. Se você não tomar cuidado, um módulo pode parecer funcionar bem em um slot de host, mas outro (com diferenças sutis no tempo em torno de comandos, energia e caminhos de dados) pode funcionar de forma irregular. Ou pior, a taxa de erro de bits aumenta e um problema raro e intratável ocorre provavelmente por deslizamento de bits. Ferramentas como o ONT integram comandos CMIS no I²C, bem como controle de energia do módulo e status do caminho de dados, que não apenas ajudam a depurar e resolver problemas, mas também ajudam a fazer testes de estresse e verificar a robustez dos módulos em diferentes hosts.

o despejo de memória da primeira página de memória

A tela acima mostra um despejo de memória da primeira página de memória. Isso permite verificar rapidamente se os valores corretos estão armazenados no 400G QSFP-DD EEPROM. Dados em branco ou aleatórios podem indicar que o dispositivo não foi inicializado.

controle exato dos parâmetros elétricos do módulo de forma clara e inequívoca.

Algumas das aplicações mais avançadas no aplicativo de gerenciamento de módulos permitem o controle preciso dos parâmetros da porta elétrica do módulo de maneira clara e inequívoca.

Em síntese

Os módulos 400G QSFP-DD são uma maravilha da engenharia eletrônica, fotônica, mecânica e térmica combinada com firmware complexo. Um ecossistema QSFP-DD de vários fornecedores saudável é fundamental para a implantação generalizada da tecnologia de rede 400G. Ele representa uma evolução e revolução na tecnologia tradicional de módulos 100G, mas também traz novos desafios, incluindo sinalização PAM-4 (elétrica e óptica), FEC para controle de link BER e as novas complexidades de CMIS 4.0.

Esses desafios são maiores porque as necessidades de escala e implantação dos usuários de hiperescala estão gerando mudanças nas expectativas de preços. A produção deve atender aos requisitos de rendimento e rendimento para atender às expectativas de preço, ao mesmo tempo em que possui os recursos de cobertura e análise para atender aos novos desafios do PAM-4.

Deixe um comentário

Voltar ao Topo