Estatística básica no R – Curso gratuíto

Provavelmente, você veio até aqui por conta de nosso curso de Estatística básica no R e está em busca dos arquivos utilizados e dos materiais complementares que eu mostrou ou menciono no decorrer das aulas. Abaixo, você poderá fazer o download destes arquivos.

Arquivo principal
Para acessar/baixar a base de dados, basta clicar aqui. O arquivo apresenta os dados em formato “separado por vírgulas” (csv). Isto implica que você deverá estipular esta configuração no software.

O curso
Vídeo de Apresentação do curso.
Descrição: Aqui você descobrirá quem eu sou e minha área de pesquisa. Este vídeo é curto (e foi planejado para ser assim) e apresenta a motivação do curso.

Aula teórica 1: Conceitos fundamentais em pesquisa
-vídeo-
Descrição: Considero que os três conceitos que antecedem quaisquer técnicas estatísticas são: realidade e modelo, constantes e variáveis e frequências e distribuições. Não espere que outros professores concordem integralmente com este pressuposto, já que a diversidade teórica é bastante frequente – e importante – na acadêmica. Porém, acho pouco provável que alguém discorde da importância destes conceitos.

Aula prática 1: O tidyverse
-vídeo-
Arquivo utilizado durante a aula: estatistica_r_aula1
Slide utilizado durante a aula: Estatistica no R – Aula 1 tabelas e graficos
Descrição: O R é um programa fabulosos e por ser bastante flexível, existem diferentes caminhos de se responder às mesmas questões de pesquisa e de programação. É possível filtrar bases de dados por muitas formas, bem como é possível realizar interações dentro de uma base por múltiplos comandos. Particularmente, acho que a forma que o ecossistema tidyverse funciona é bastante lógica, simples e direta. Acredito que é também mais fácil o estudante generalizar os comandos utilizados dentro do ambiente tidyverse para os comandos nativos do R, do que o contrário. Desta forma, neste vídeo, já no ambiente R, você irá aprender os comandos principais para administrar bases e realizar análises descritivas (tabelas e gráficos).

Aula teórica 2: Nível de medida
-vídeo-
Material complementar:  Stevens, 1946. On the Theory of Scales of Measurement.
Descrição: Ao medir uma determinada variável, temos quais são os procedimentos matemáticos que podemos fazer com elas. Enquanto algumas variáveis somente permitem que a gente conte sua frequência, outras possibilitam operações mais complexas, como aplicar log, verificar a variância, etc. Esta aula traz o panorama histórica sobre o conceito de nível de medida.

Aula prática 2: Qui quadrado e ODDS-RATIO
-vídeo-
Arquivo utilizado durante a aula: estatistica_r_aula2 EPIDEMIO
Arquivo complementar: sintaxe_complementar_qui_quadrado (Gráfico da distribuição Qui quadrado)
Slide utilizado durante a aula: Estatistica no R – Aula 2 qui quadrado
Descrição: Frequentemente, temos interesse em analisar duas variáveis conjuntamente para verificar uma possível associação entre elas. Neste caso, ao considerar duas variáveis, o espectro de possibilidades é este: duas variáveis contínuas (por exemplo, salário e idade), uma variável contínua e uma categórica (por exemplo, salário e sexo) ou duas variáveis categóricas (por exemplo, profissão escolhida e sexo). No primeiro caso, gráficos de dispersão são úteis para este propósito. Nos dois últimos, a construção de uma tabela de contingências serve não somente para visualizar uma possível relação, mas também para operacionalizar os testes estatísticos relacionados à tal pergunta. O teste Qui quadrado foi elaborado para verificar a associação entre  duas variáveis categóricas e faz isso calculando a diferença entre o número observado de respostas em determinada categoria e o número esperado no caso de independência entre as variáveis. Por não responder a questões sobre parâmetros, como média ou variância, ele é considerado um teste não-paramétrico e não depende de uma análise da distribuição das variáveis para sua execução.
Em epidemiologia, as medidas de associação são muito úteis e, mesmo sem falar sobre causalidade, auxiliam na metrificação de como determinada condição de exposição pode aumentar as chances de um desfecho em saúde. Por exemplo, a exposição à fumaça ambiental e desenvolvimento de câncer.  O “Odds Ratio”, corriqueiramente traduzido como “Razão de chances”, é a medida de escolha em  pesquisas do tipo caso-controle e é apresentado em modelos de regressão logística. Por sua popularidade, resolvi implementar esta análise também nesta aula. Para fazer isso, contei com um outro pacote, que se chama epitools e é bastante simples e dinâmico.

Aula teórica 3: Teste T e lógica inferencial
-vídeo-
Descrição: Quase sempre, nosso interesse em fazer uma pesquisa é conseguir generalizar o que aprendemos pelos resultados amostrais à população de onde aquela amostra foi retirada. Neste vídeo, a partir de uma pesquisa em que verificou-se se havia diferença na quantidade de fala entre homens e mulheres, eu descrevo os passos tradicionais utilizados para inferência em estatística frequentista. É importante alertar que este vídeo não funciona como uma “recomendação padrão” do que você deve fazer antes de partir para inferências, mas sim como um apanhado geral deste tema.

Aula prática 3: Teste T, ANOVA e Tamanho do efeito
-vídeo-
Arquivo utilizado durante a aula: estatistica_r_aula3 Teste T ANOVA
Arquivo complementar: sintaxe_complementar_teste_t (Gráfico da distribuição T e F)
Slide utilizado durante a aula: Estatistica no R – Aula 3 teste T e ANOVA
Descrição: O teste T foi originalmente desenvolvido por William Gosset e publicado em 1908 na revista Biometrika. Quando a variável dependente é normalmente distribuída, o teste T é bastante utilizado para verificar se existe diferença significativa entre dois grupos nesta variável dependente. A ANOVA, por sua vez, expande o teste T para casos em que existem mais de dois grupos. O modelo matemático da ANOVA foi elaborado por Ronald Fisher e foi publicado, em 1921, sob a série intitulada Studies in Crop Variation, no The Journal of Agricultural Science. Nesta aula, ensino como realizar o Teste T, a ANOVA, testes de comparações posteriores e medidas para verificar o tamanho do efeito. Durante este vídeo, aproveito para discutir o problema das múltiplas comparações e sua associação com o erro do tipo 1, bem como explico o motivo pelo qual a ANOVA pode ser vista como uma análise exploratória.
Cinco curiosidades: 1) Gosset não podia usar seu nome nas publicações por conta de uma possível represália de sua empresa (ele era químico e estatístico da Guiness); 2) a revista Biométrika foi fundada em 1901 por K. Pearson, Francis Galton e Raphael Weldon e até hoje é uma das referências mais fortes e estatística e bioestatística. 3) Ronald Fisher e K. Pearson não eram muito amigos e Fisher era obrigado a publicar seus artigos em outras revistas; 4) a publicação da ANOVA generalizou outros conceitos, como o próprio teste T e a Correlação intraclasse ; 5) Fisher era “apenas” mestre (Master of Art Degrees & M.A) nesta época.

Aula teórica 4: Regressão
-vídeo-
Descrição: Se você estudar modelos de regressão, você irá ver que a maior partes dos testes estatísticos pode ser vista como um caso especial ou particular de análises de regressão. Desta maneira, modelos de regressão “substituem” a maioria dos testes que eu ensinei até agora. Neste vídeo, explico sobre esta questão e mostro o passo-a-passo típico para interpretar os resultados de uma regressão linear múltipla.

Aula prática 4: Regressão
-vídeo-
Arquivo utilizado durante a aula: estatistica_r_aula3 Regressao
Arquivo complementar: sintaxe_complementar_regressao (Gráficos e comparações)
Slide utilizado durante a aula: Estatistica no R – Aula 4 Regressao
Descrição: Modelos de regressão são especialmente úteis para modelar uma variável de desfecho/prevista contínua em função de uma ou mais variáveis explanatórias/preditoras. Neste vídeo, eu mostro como construir modelos de regressão lineares simples (uma única variável) ou múltiplos (duas ou mais variáveis) e como utilizá-los para realizar previsões. A relação bivariada entre a variável prevista e cada uma das variáveis preditoras foi analisada pelo pacote effects. Um aspecto importante – e que eu não abordei neste vídeo – é relacionado à verificação dos pressupostos do modelo, que é feita pela análise dos resíduos. Apesar de nem sempre ser possível cumprir todas as condições de modelos de regressão, é importante verificá-los.

Notas importantes

  1. Esta página está em constante atualização. Você deverá retornar aqui toda semana para verificar as novidades e outros materiais até o fim do curso.
  2. Lembre-se de ajustar as configurações do R e RStudio para que o arquivo seja corretamente conhecido em relação a: vírgulas, pontos, caracteres especiais
  3. Este é um curso gratuito e introdutório. A vantagem: você não paga absolutamente nada para acessar. A desvantagem: não existe um suporte oficial, mas caso você tenha dúvidas, me mande um e-mail.

Um forte abraço a todos

Um forte abraço,
Luis Anunciação
Psicometria (PUC-Rio)

Facebook Comments