
ferreira10 Escreveu:A melhor solução é claramente a eliminação de dados.Se os não tens; simplesmente, ignora-os.
Quando estás a fazer a correlação de dados, estás a entrar com uma nuvem de pontos.Acontece às vezes serem desprezadas algumas ovelhas negras (pontos) que não seguem o figurino geral.Ou seja, são ignorados às vezes pontos que fogem demasiado à configuração da nuvem, vista como um todo.Faz-se isso de modo a melhorar o ajustamento do modelo.A remoção desses outsiders leva a que a correlação do modelo aumente.Assume-se que foram medições mal feitas, ou, no caso em discussão, assume-se que resultaram de dias atípicos.Pelo que não são facilmente repetiveis.
O importante não é desprezares alguns dados; o importante é saber se a quantidade de dados desprezados não põe em causa a validade do modelo.Em linguagem médica e para quem tome medicamentos, os médicos dizem; se se esqueceu de tomar a dose àquela hora, não é por ai que o gato vai às filhoses.
A sugestão da interpelação é curiosa; é uma pratica corrente substituir dados em falta fazendo uso dos dados adjacentes.Mas o dado assim obtido estaria encarreirado com os seus adjacentes; pelo que não acrescentaria nada de novo ao modelo.O que pode mudar o coeficiente de correlação são dados que não seguem o carreiro principal.E não aqueles que estão encarreirados.
Substituir os dados em falta por zero é um erro grave.O modelo pode não estar a passar pela "origem do referencial" pelo que provocarias uma distorção grave.
Também 'voto' nesta.