Sunday 13 August 2017

Desvio Padrão Médio Móvel Ponderado


Oi, coloquei alguns dados do processo por 3 anos e eu quero imitar uma análise prospectiva EWMA, para ver se o meu parâmetro de suavização do conjunto teria detectado todas as mudanças importantes (sem muitos alarmes falsos). Parece que a maioria dos livros didáticos e literatura que procurei usar um desvio padrão e médio para calcular os limites de controle. Esta é geralmente a média de controle e o desvio padrão de alguns dados históricos, ou a média e a população da população a partir da qual as amostras são desenhadas. Eu não tenho nenhuma informação. Existe outra maneira de calcular os limites de controle Existe uma variação do gráfico EWMA que não usa desvio padrão e padrão. Todas as idéias criativas. Obrigado antecipadamente. Para garantir que eu entenda isso: você poderia calcular o significado e a variância do EWMA, mas você Não há uma linha de base para compará-los. Parece-me que você tem uma técnica supervisionada (o que supõe que você pode definir o que parece ser um pouco), mas você quer uma técnica não supervisionada (que só procura diferenças sem chamar um estado de quotgoodquot e outro Quotbadquot). Para técnicas não supervisionadas, o agrupamento vem à mente, mas teria que ser modificado para se candidatar a timeseries. Como sobre a Razão de Viabilidade Generalizada (GLR) ndash Jim Pivarski 25 de junho 14 às 2:49 Se nos referimos a en. wikipedia. orgwikiEWMAchart. Eu posso calcular o Zi para o meu lambda dado, mas quando se trata dos limites de controle, não tenho dados históricos para calcular o T e S. Obrigado Eu vou olhar para o GLR e também publicar no Cross Validated. Ndash user3295481 25 de junho 14 às 2:54 Sim, T e S são o desvio padrão e médio de uma distribuição de linha de base, que é dada a priori ou determinada a partir de um conjunto de dados de treinamento. O conjunto de dados de treinamento representa o que os dados não devem parecer, portanto, esta é uma técnica supervisionada e você quer uma técnica não supervisionada. O GLR não é ponderado exponencialmente, mas encontra dinamicamente uma ruptura nos dados entre duas distribuições diferentes e combina dados em cada lado da quebra para obter resultados mais robustos. Pode ser o que você quer. Ndash Jim Pivarski 25 de junho 14 às 3:00 De uma perspectiva operacional prática, o uso da análise estatística de dados históricos por si só é raro. Sim, fornece algumas orientações sobre como o processo (e seu sistema de controle) estão funcionando, no entanto, o mais importante é, de longe, ter uma boa compreensão e conhecimento dos limites de engenharia. Refiro-me aos limites operacionais, que são determinados pelas especificações e características de desempenho dos vários equipamentos. Isso permite que se desenvolva uma boa compreensão de como o processo deve se comportar (em termos de ponto de operação ideal e limites de controle superior) e onde as áreas de maior desvio do ótimo são. Isso tem muito pouco a ver com a análise estatística de dados históricos, e um ótimo negócio com a técnica de metalurgia de processo - dependendo do tipo de processo que você está lidando. Os limites de controle são determinados em última análise pelo que o Process Manager Process Engineer WANTS, que geralmente são (mas não sempre) dentro da capacidade da placa de identificação do equipamento. Se você estiver trabalhando dentro dos limites operacionais, e você está no campo da otimização de processos, então sim, a análise estatística é mais amplamente utilizada e pode oferecer uma boa visão. Dependendo da variabilidade do seu processo, de quão bem o seu sistema de controle está configurado e da homogeneidade do seu produto de alimentação, os limites de controle superiores que são selecionados variam. Um bom ponto de partida é o ponto de operação ideal (por exemplo, 100 m3hr), então use uma quantidade sensível de dados históricos para calcular um desvio padrão e faça seu limite superior 100 1 dev padrão e seu limite inferior de 100 a 1 dev. Esta não é uma regra dura e rápida, mas é um ponto de partida sensível. Respondeu 7 de fevereiro às 12: 12Explorando a volatilidade média móvel ponderada exponencialmente é a medida de risco mais comum, mas vem em vários sabores. Em um artigo anterior, mostramos como calcular a volatilidade histórica simples. (Para ler este artigo, consulte Usando a volatilidade para avaliar o risco futuro.) Usamos os dados atuais do preço das ações da Googles para calcular a volatilidade diária com base em 30 dias de estoque de dados. Neste artigo, melhoraremos a volatilidade simples e discutiremos a média móvel ponderada exponencialmente (EWMA). Vs históricos. Volatilidade implícita Primeiro, colocamos essa métrica em um pouco de perspectiva. Existem duas abordagens amplas: volatilidade histórica e implícita (ou implícita). A abordagem histórica pressupõe que o passado é o prólogo que medimos a história na esperança de que seja preditivo. A volatilidade implícita, por outro lado, ignora o histórico que resolve para a volatilidade implícita nos preços de mercado. Espera que o mercado conheça melhor e que o preço de mercado contenha, mesmo que de forma implícita, uma estimativa consensual da volatilidade. (Para leitura relacionada, veja Os Usos e Limites da Volatilidade.) Se nos concentrarmos apenas nas três abordagens históricas (à esquerda acima), eles têm dois passos em comum: Calcule a série de retornos periódicos Aplicar um esquema de ponderação Primeiro, nós Calcule o retorno periódico. Isso geralmente é uma série de retornos diários, em que cada retorno é expresso em termos compostos continuamente. Para cada dia, tomamos o log natural da proporção dos preços das ações (ou seja, preço hoje dividido por preço ontem e assim por diante). Isso produz uma série de retornos diários, de u i to u i-m. Dependendo de quantos dias (m dias) estamos medindo. Isso nos leva ao segundo passo: é aqui que as três abordagens diferem. No artigo anterior (Usando o Volatility To Gauge Future Risk), mostramos que sob um par de simplificações aceitáveis, a variância simples é a média dos retornos quadrados: Observe que isso resume cada um dos retornos periódicos, então divide esse total pelo Número de dias ou observações (m). Então, é realmente apenas uma média dos retornos periódicos quadrados. Dito de outra forma, cada retorno quadrado recebe um peso igual. Então, se o alfa (a) é um fator de ponderação (especificamente, um 1m), então uma variância simples parece algo assim: O EWMA melhora a diferença simples. A fraqueza dessa abordagem é que todos os retornos ganham o mesmo peso. O retorno de Yesterdays (muito recente) não tem mais influência na variação do que o retorno dos últimos meses. Esse problema é corrigido usando a média móvel ponderada exponencialmente (EWMA), na qual os retornos mais recentes têm maior peso na variância. A média móvel ponderada exponencialmente (EWMA) apresenta lambda. Que é chamado de parâmetro de suavização. Lambda deve ser inferior a um. Sob essa condição, em vez de pesos iguais, cada retorno quadrado é ponderado por um multiplicador da seguinte forma: por exemplo, RiskMetrics TM, uma empresa de gerenciamento de risco financeiro, tende a usar uma lambda de 0,94 ou 94. Neste caso, o primeiro ( Mais recente) o retorno periódico ao quadrado é ponderado por (1-0,94) (94) 0 6. O próximo retorno ao quadrado é simplesmente um múltiplo lambda do peso anterior neste caso 6 multiplicado por 94 5,64. E o peso do terceiro dia anterior é igual (1-0,94) (0,94) 2 5,30. Esse é o significado de exponencial em EWMA: cada peso é um multiplicador constante (isto é, lambda, que deve ser inferior a um) do peso dos dias anteriores. Isso garante uma variação ponderada ou tendenciosa em relação a dados mais recentes. (Para saber mais, confira a Planilha do Excel para a Volatilidade dos Googles.) A diferença entre a simples volatilidade e o EWMA para o Google é mostrada abaixo. A volatilidade simples efetivamente pesa cada retorno periódico em 0.196 como mostrado na Coluna O (tivemos dois anos de dados diários sobre o preço das ações. Isso é 509 devoluções diárias e 1509 0.196). Mas observe que a coluna P atribui um peso de 6, então 5.64, depois 5.3 e assim por diante. Essa é a única diferença entre variância simples e EWMA. Lembre-se: depois de somar a série inteira (na coluna Q), temos a variância, que é o quadrado do desvio padrão. Se queremos volatilidade, precisamos lembrar de tomar a raiz quadrada dessa variância. Qual é a diferença na volatilidade diária entre a variância e EWMA no caso do Googles. É significativo: a variância simples nos deu uma volatilidade diária de 2,4, mas a EWMA deu uma volatilidade diária de apenas 1,4 (veja a planilha para obter detalhes). Aparentemente, a volatilidade de Googles estabeleceu-se mais recentemente, portanto, uma variação simples pode ser artificialmente alta. A diferença de hoje é uma função da diferença de dias de Pior. Você notará que precisamos calcular uma série longa de pesos exponencialmente decrescentes. Nós não vamos fazer a matemática aqui, mas uma das melhores características do EWMA é que toda a série se reduz convenientemente a uma fórmula recursiva: Recursiva significa que as referências de variância de hoje (ou seja, são uma função da variância dos dias anteriores). Você também pode encontrar esta fórmula na planilha e produz exatamente o mesmo resultado que o cálculo de longo prazo. A variação de hoje (sob EWMA) é igual a variância de ontem (ponderada por lambda) mais retorno quadrado de ontem (pesado por menos a lambda). Observe como estamos apenas adicionando dois termos em conjunto: variância ponderada de ontem e atraso de ontem, retorno quadrado. Mesmo assim, lambda é o nosso parâmetro de suavização. Um lambda mais alto (por exemplo, como RiskMetrics 94) indica decadência mais lenta na série - em termos relativos, teremos mais pontos de dados na série e eles vão cair mais devagar. Por outro lado, se reduzirmos a lambda, indicamos maior deterioração: os pesos caem mais rapidamente e, como resultado direto da rápida deterioração, são usados ​​menos pontos de dados. (Na planilha, lambda é uma entrada, para que você possa experimentar sua sensibilidade). Resumo A volatilidade é o desvio padrão instantâneo de um estoque e a métrica de risco mais comum. É também a raiz quadrada da variância. Podemos medir a variação historicamente ou implicitamente (volatilidade implícita). Ao medir historicamente, o método mais fácil é a variância simples. Mas a fraqueza com variância simples é que todos os retornos recebem o mesmo peso. Então, enfrentamos um trade-off clássico: sempre queremos mais dados, mas quanto mais dados temos, mais nosso cálculo será diluído por dados distantes (menos relevantes). A média móvel ponderada exponencialmente (EWMA) melhora a variação simples ao atribuir pesos aos retornos periódicos. Ao fazer isso, podemos usar um grande tamanho de amostra, mas também dar maior peso aos retornos mais recentes. (Para ver um tutorial de filme sobre este tópico, visite a Tartaruga Bionica.) Whuber - Isso é errado, como você suspeitava. É correto se os próprios pesos sejam freqüências. Mas, embora as frequências passem a computar as porcentagens neste caso, os pesos, embora não especificados, não são freqüências de ocorrência, mas algo mais a ver com quotdata volumequot. Então esta é a resposta errada. Ndash Rex Kerr 8 de setembro 15 às 17:50 As fórmulas estão disponíveis em vários lugares, incluindo a Wikipedia. A chave é notar que isso depende do que os pesos significam. Em particular, você receberá respostas diferentes se os pesos forem frequências (ou seja, você está apenas tentando evitar a adição de sua soma total), se os pesos forem, de fato, a variância de cada medida, ou se eles são apenas alguns valores externos que você impõe seus dados. No seu caso, parece superficialmente que os pesos são frequências, mas eles não são. Você gera seus dados de freqüências, mas não é uma simples questão de ter 45 registros de 3 e 15 registros de 4 em seu conjunto de dados. Em vez disso, você precisa usar o último método. (Na verdade, tudo isso é lixo - você realmente precisa usar um modelo mais sofisticado do processo que está gerando esses números. Aparentemente, você não tem algo que cuspa. Números normalmente distribuídos, portanto, caracterizar o sistema com o desvio padrão é Não é a coisa certa a fazer.) Em qualquer caso, a fórmula para a variância (a partir da qual você calcula o desvio padrão no modo normal) com pesos de confiabilidade é onde x sum wi xi sum wi é a média ponderada. Você não tem uma estimativa para os pesos, o que eu suponho que você deseja tomar para ser proporcional à confiabilidade. Tomar porcentagens do jeito que você está, vai tornar a análise complicada, mesmo que elas sejam geradas por um processo de Bernoulli, porque se você conseguir uma pontuação de 20 e 0, você tem porcentagem infinita. A ponderação pelo inverso do SEM é uma coisa comum e às vezes ótima a ser feita. Você talvez use uma estimativa bayesiana ou um intervalo de pontuação de Wilson. Respondeu 8 de setembro 15 às 17:48 1. A discussão dos diferentes significados dos pesos era o que eu estava procurando neste tópico o tempo todo. É um contributo importante para todas as perguntas deste site sobre as estatísticas ponderadas. (Estou um pouco preocupado com as observações entre parênteses sobre distribuições normais e desvios padrão, porém, porque sugerem incorretamente que os SDs não usam fora de um modelo com base na normalidade.) Ndash whuber 9830 Set 8 15 at 18:23 whuber - Bem, Teorema do limite central para o resgate, é claro. Mas, para o que o OP estava fazendo, tentar caracterizar esse conjunto de números com um desvio padrão e médio parece extremamente desaconselhável. E em geral, para muitos usos, o desvio padrão acaba atraindo um em um falso sentimento de compreensão. Por exemplo, se a distribuição é qualquer coisa que não seja normal (ou uma boa aproximação), depender do desvio padrão irá dar-lhe uma má idéia da forma das caudas, quando é exatamente aquelas caudas nas quais você provavelmente se preocupa em estatística Teste. Ndash Rex Kerr 8 de setembro 15 às 19:44 RexKerr Podemos culpar o desvio padrão se as pessoas colocam interpretações nele que são imerecidas. Mas deixe-os afastar-se da normalidade e considerar a classe muito mais ampla de distribuições unimodais contínuas e simétricas com variância finita (por exemplo). Então, entre 89 e 100 por cento da distribuição está dentro de dois desvios padrão. Isso geralmente é bastante útil para saber (e 95 está bastante no meio, de modo que nunca mais do que cerca de 7) com muitas distribuições comuns, o aspecto de simetria deixando de mudar muito (por exemplo, veja o exponencial, por exemplo). Ctd ndash Glenb 9830 Oct 1 15 at 23:57

No comments:

Post a Comment