Skip to main content

Como usar a ferramenta 'Ngram Viewer' no Google Books

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty (Pode 2025)

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty (Pode 2025)
Anonim

Um Ngram, também comumente chamado de N-gram, é uma análise estatística do conteúdo do texto ou da fala para localizar n (um número) de algum tipo de item no texto.

O item de pesquisa pode ser todo tipo de coisa, como fonemas, prefixos, frases ou letras. Embora o N-grama seja um pouco obscuro fora da comunidade de pesquisa, ele é usado em vários campos e tem muitas implicações para os desenvolvedores que codificam programas de computador que entendem e respondem à linguagem natural falada.

No caso do Google Books Ngram Viewer, o texto a ser analisado vem da grande quantidade de livros que o Google digitalizou de bibliotecas públicas para preencher o mecanismo de busca do Google Livros. Para o Google Books Ngram Viewer, eles se referem ao texto que você vai pesquisar como corpus . O Ngram Viewer agrega por idioma, embora você possa analisar separadamente o inglês britânico e americano ou agrupá-los.

Como funciona o Ngram

  1. Vá para o Google Books Ngram Viewer em books.google.com/ngrams.

  2. Digite qualquer frase ou frase que você deseja analisar. Separe cada frase com uma vírgula. O Google sugere "Albert Einstein, Sherlock Holmes, Frankenstein" para você começar. Os itens diferenciam maiúsculas de minúsculas, diferentemente das pesquisas na web do Google.

  3. Digite um intervalo de datas. O padrão é 1800 a 2000.

  4. Escolha um corpus. Você pode pesquisar textos de língua estrangeira ou inglês, e além das opções padrão, você pode notar coisas como "Inglês (2009) ou Inglês Americano (2009)" na parte inferior. Estes são corpora antigos que o Google atualizou desde então, mas você pode ter alguns motivos para fazer comparações com conjuntos de dados antigos. A maioria dos usuários pode ignorá-los e se concentrar nos corpora mais recentes.

  5. Defina o seu nível de suavização. Suavização refere-se à suavidade do gráfico no final. A representação mais precisa seria um nível de suavização de 0, mas essa configuração pode ser difícil de ler. O padrão é definido como 3. Na maioria dos casos, você não precisa ajustá-lo.

  6. aperte o Pesquisar muitos livros botão.

O Google permite que você faça uma pesquisa detalhada com o Ngram Viewer. Se você quiser procurar por fish o verbo em vez de fish the noun, você pode fazer isso usando tags. Nesse caso, você procuraria "fish_VERB"

O Google fornece uma lista completa de comandos que você pode usar e outra documentação avançada em seu site.

O que o Ngram está mostrando?

O Google Books Ngram Viewer exibirá um gráfico que representa o uso de uma frase específica em livros ao longo do tempo. Se você tiver inserido mais de uma palavra ou frase, verá linhas codificadas por cores para contrastar os diferentes termos de pesquisa. Isso é muito parecido com o Google Trends, mas a pesquisa abrange um período mais longo.

Estudo de caso

Considere o estudo de caso de tortas de vinagre. Eles são mencionados em Laura Ingalls Wilder Little House on the Prairie Series. Explorar com a pesquisa na Web do Google para saber mais sobre as tortas de vinagre revela que elas são consideradas parte da culinária do sul dos Estados Unidos e realmente são feitas de vinagre. Eles dão ouvidos aos tempos em que nem todos tinham acesso a produtos frescos em todas as épocas do ano. Mas isso é toda a história?

Pesquisar no Google Ngram Viewer por torta de vinagre e você encontrará algumas menções da torta tanto no início quanto no final de 1800, muitas menções na década de 1940 e um número crescente de menções nos últimos tempos. No entanto, com um nível de suavização de 3, você verá um platô sobre as menções no século XIX. Como não há muitos livros publicados durante esse período, e porque nossos dados estão definidos para suavizar, isso distorce a imagem. Provavelmente houve um livro que mencionou torta de vinagre, e só tem uma média para evitar um pico. Ao definir a suavização para 0, podemos ver que este é exatamente o caso. O pico se concentra em 1869, e há outro pico em 1897 e 1900.

É improvável que ninguém falasse sobre vinagre no resto do tempo: provavelmente havia receitas flutuando por todo o lugar, mas as pessoas simplesmente não escrever sobre eles em livros, e essa é uma limitação importante dessas pesquisas do Ngram.