Tuesday 30 October 2018

Numpy moving average window


Hmmm, parece que este quoteasy para implementar a função é realmente muito fácil de errar e tem promovido uma boa discussão sobre a eficiência da memória. I39m feliz por ter bloat se isso significa saber que something39s sido feito direito. Ndash Richard Sep 20 14 at 19:23 NumPys falta de uma determinada função específica do domínio é talvez devido à disciplina de Equipes Core e fidelidade à diretiva Prime NumPys: fornecer um tipo de matriz N-dimensional. Bem como funções para criar e indexar essas matrizes. Como muitos objetivos fundacionais, este não é pequeno, e NumPy faz isso brilhantemente. O SciPy (muito maior) contém uma coleção muito maior de bibliotecas específicas de domínio (chamadas subpacotes por SciPy devs) - por exemplo, otimização numérica, processamento de sinal (sinal) e cálculo integral (integrar). Minha suposição é que a função que você está depois está em pelo menos um dos subpáginas SciPy (scipy. signal talvez) no entanto, eu iria olhar primeiro na coleção de scikits SciPy. Identificar o (s) scikit (s) relevante (s) e procurar a função de interesse lá. Scikits são desenvolvidos independentemente pacotes baseados em NumPySciPy e dirigidos a uma determinada disciplina técnica (por exemplo, scikits-image. Scikits-learn, etc.) Vários destes foram (em particular, o incrível OpenOpt para otimização numérica) foram altamente considerados, projetos maduros longo Antes de escolher para residir sob a rubrica relativamente nova scikits. A página inicial do Scikits gostava de listar cerca de 30 scikits como esse. Embora pelo menos alguns deles não estejam mais em desenvolvimento ativo. Seguindo este conselho levaria você a scikits-timeseries no entanto, que o pacote não está mais em desenvolvimento ativo Em efeito, Pandas tornou-se, AFAIK, a biblioteca de série de facto NumPy-baseado. Pandas tem várias funções que podem ser usadas para calcular uma média móvel, o mais simples destes é provavelmente rollingmean. Que você usa assim: Agora, basta chamar a função rollingmean passando no objeto Series e um tamanho de janela. Que no meu exemplo abaixo é de 10 dias. Verificar que funcionou - por exemplo. Os valores comparados 10 - 15 na série original versus a nova série alisada com média de rolamento A função rollingmean, juntamente com cerca de uma dúzia de outras funções são agrupadas informalmente na documentação Pandas sob a rubrica move janela funciona um segundo grupo relacionado de funções Em Pandas é referido como funções exponencialmente ponderadas (eg ewma., Que calcula a média ponderada exponencialmente em movimento). O fato de que este segundo grupo não está incluído no primeiro (movendo funções de janela) é talvez porque as transformações ponderadas exponencialmente não confiar em um comprimento fixo windowI sei que esta é uma velha questão, mas aqui está uma solução que doesnt usar qualquer extra Estruturas de dados ou bibliotecas. É linear no número de elementos da lista de entrada e não consigo pensar em nenhuma outra maneira de torná-lo mais eficiente (na verdade, se alguém sabe de uma maneira melhor de alocar o resultado, por favor me avise). NOTA: isso seria muito mais rápido usando uma matriz numpy em vez de uma lista, mas eu queria eliminar todas as dependências. Seria também possível melhorar o desempenho por execução multi-threaded A função assume que a lista de entrada é um dimensional, por isso tenha cuidado. UPD: soluções mais eficientes foram propostas por Alleo e jasaarim. Você pode usar np. convolve para isso: O argumento mode especifica como lidar com as arestas. Eu escolhi o modo válido aqui porque eu acho que é como a maioria das pessoas esperam correr significa trabalhar, mas você pode ter outras prioridades. Aqui está uma trama que ilustra a diferença entre os modos: Respondida Mar 24 14 at 22:01 Eu gosto desta solução porque é limpo (uma linha) e relativamente eficiente (trabalho feito dentro numpy). Mas Alleo39s quotEfficient solutionquot usando numpy. cumsum tem melhor complexidade. Ndash Ulrich Stern Sep 25 15 at 0:31 Você pode calcular uma corrida média com: Felizmente, numpy inclui uma função convolve que podemos usar para acelerar as coisas. A média de corrida é equivalente a convolver x com um vetor que é N longo, com todos os membros igual a 1N. A implementação numpy de convolve inclui o transiente inicial, então você tem que remover os primeiros N-1 pontos: Na minha máquina, a versão rápida é 20-30 vezes mais rápida, dependendo do comprimento do vetor de entrada e do tamanho da janela de média . Note que convolve não incluir um mesmo modo que parece que ele deve abordar a questão transitória inicial, mas ele divide-lo entre o início eo fim. Ele remove o transiente do final, eo início não tem um. Bem, eu acho que é uma questão de prioridades, eu não preciso do mesmo número de resultados à custa de obter uma inclinação para zero que não está lá nos dados. BTW, aqui está um comando para mostrar a diferença entre os modos: modos (39full39, 39same39, 39valid39) plot (convolve (ones ((200)), uns (50,)) 4750, modem) (-10, 251, -.1, 1.1) legenda (modos, loc39lower center39) (com pyplot e numpy importados). Ndash lapis Mar 24 14 at 13:56 pandas é mais adequado para isso do que NumPy ou SciPy. Sua função rollingmean faz o trabalho convenientemente. Ele também retorna um array NumPy quando a entrada é uma matriz. É difícil de bater o rollingmean no desempenho com qualquer implementação personalizada Python puro. Aqui está um exemplo de desempenho contra duas das soluções propostas: Existem também opções agradáveis ​​sobre como lidar com os valores de limite. I39m sempre irritado pela função de processamento de sinal que retornam sinais de saída de forma diferente dos sinais de entrada quando ambas as entradas e saídas são da mesma natureza (por exemplo, ambos os sinais temporais). Ele quebra a correspondência com a variável independente relacionada (por exemplo, tempo, freqüência) tornando a plotagem ou comparação não uma questão direta. De qualquer maneira, se você compartilhar o sentimento, você pode querer mudar as últimas linhas da função proposta como ynp. convolve (ww. sum (), s, mode39same39) return ywindowlen-1 :-( windowlen-1) ndash Christian O39Reilly Aug 25 15 at 19:56 Um pouco tarde para a festa, mas Ive fez a minha própria pequena função que não envolver em torno das extremidades ou almofadas com zeros que são usados ​​para encontrar a média também. Como um tratamento adicional é, que também re-amostras do sinal em pontos linearmente espaçados. Personalize o código à vontade para obter outros recursos. O método é uma simples multiplicação matricial com um kernel normalizado gaussiano. Um uso simples em um sinal sinusoidal com ruído distribuído normal adicionado: Esta pergunta é agora mesmo mais velha do que quando NeXuS escreveu sobre ela o mês passado, MAS eu gosto de como seu código trata dos casos da borda. No entanto, por ser uma média móvel simples, seus resultados ficam atrás dos dados aos quais se aplicam. Eu pensei que lidar com borda casos de uma forma mais satisfatória do que NumPys modos válidos. mesmo. E full poderia ser alcançado através da aplicação de uma abordagem semelhante a um convolution () método baseado. Minha contribuição usa uma média de execução central para alinhar seus resultados com seus dados. Quando há dois pontos disponíveis para a janela de tamanho completo a ser usado, as médias de execução são calculadas a partir de janelas sucessivamente menores nas bordas da matriz. Na verdade, a partir de janelas sucessivamente maiores, mas isso é um detalhe de implementação. É relativamente lento porque usa convolve (). E poderia provavelmente ser spruced acima completamente muito por um Pythonista verdadeiro, entretanto, eu acredito que a idéia está. Respondeu Jan 2 às 0:28 np. convolve é bom, mas lento quando a largura da janela cresce grande. Algumas respostas fornecem algoritmos mais eficientes com np. cumsum, mas parecem incapazes de lidar com valores de limite. Eu mesmo tenho implementado um algoritmo que pode lidar bem com este problema, se este problema é declarado como: parâmetro de entrada mergenum pode ser pensado como 2 windowwidth 1. Eu sei que este código é um pouco ilegível se u encontrá-lo útil e quer algumas expansões, por favor me avise e atualizar esta resposta. (Uma vez que escrever uma explicação pode custar-me muito tempo, espero que eu fazê-lo apenas quando alguém precisa dele. Por favor, perdoe-me por minha preguiça :)) Se apenas u estão interessados ​​em sua versão original: Seu ainda mais ilegível: a primeira solução Se livrar do problema de borda por zeros de preenchimento em torno da matriz, mas a segunda solução postada aqui lida com ela de uma maneira dura e direta :) lapis sim, mas vamos dizer que você usar o método cumsum no primeiro tick e salvar a sua média de rolamento médio para o Próxima marca. Cada carrapato depois disso você só tem que acrescentar o mais recente valor de média móvel para a sua matriz de rolamento em armazenamento. Usando este método você não está recalculando coisas que você já calculou: Na primeira vez que você cumsum depois disso, basta acrescentar o quotmean dos elementos do último período que é 2x mais rápido para todos os carrapatos subseqüentes. Ndash litepresence Jun 10 16 at 12:29 Se você escolher rolar o seu próprio, em vez de usar uma biblioteca existente, por favor, esteja consciente de erro de ponto flutuante e tentar minimizar seus efeitos: Se todos os seus valores são aproximadamente a mesma ordem de grandeza , Então isso ajudará a preservar a precisão sempre adicionando valores de magnitudes aproximadamente semelhantes. Na minha última frase eu estava tentando indicar por que ele ajuda a flutuação de erro de ponto. Se dois valores são aproximadamente a mesma ordem de grandeza, então adicioná-los perde menos precisão do que se você adicionou um número muito grande para um muito pequeno. O código combina valores quotadjacentquot de uma forma que mesmo somas intermediárias devem sempre ser razoavelmente próximos em magnitude, para minimizar o erro de ponto flutuante. Nada é à prova de tolo, mas este método salvou um casal projetos muito mal implementados na produção. Ndash Mayur Patel Dec 15 14 at 17:22 Alleo: Em vez de fazer uma adição por valor, você estará fazendo dois. A prova é o mesmo que o problema de bit-flipping. No entanto, o ponto dessa resposta não é necessariamente desempenho, mas precisão. O uso de memória para a média de valores de 64 bits não excederia os 64 elementos no cache, portanto também é amigável no uso de memória. Ndash Mayur Patel 29 de dezembro às 17: 04 Nós introduzimos anteriormente como criar médias móveis usando python. Este tutorial será uma continuação deste tópico. Uma média móvel no contexto da estatística, também chamada de média de rolamento, é um tipo de resposta ao impulso finito. Em nosso tutorial anterior traçamos os valores das matrizes x e y: Let8217s traçam x contra a média móvel de y que chamaremos yMA: Em primeiro lugar, let8217s equalizar o comprimento de ambos os arrays: E para mostrar isso no contexto: Gráfico: Para ajudar a entender isso, let8217s trama dois relacionamentos diferentes: x vs y e x vs MAy: A média móvel aqui é a parcela verde que começa em 3: Compartilhar este: Como este: Navegação de posts Deixar uma resposta Cancelar resposta Very useful I Gostaria de ler a última parte em grandes conjuntos de dados Espero que venha em breve8230 d blogueiros como este:

No comments:

Post a Comment