top of page

Mapeamento em grandes volumes de texto



A era digital está trazendo inúmeras consequências para nossas vidas que precisam ser pensadas constantemente nos limites éticos da sociedade. O famoso adágio “conhecimento é poder” se faz presente em um contexto de produção de dados em massa sobre a vida das pessoas. Quem produz e quem tem acesso aos dados são perguntas fundamentais para a regulamentação do que pode ser feito com informações que produzimos sobre nós mesmos, seja a iniciativa privada com concessão pública, seja o próprio estado administrando sua população.


O digital trouxe mudanças, também, sobre as práticas de pesquisa, com a expansão de campos, públicos e debates. Nesse sentido, surgiram incrementos tecnológicos que permitem dinamizar aspectos da pesquisa. De uma forma ou de outro, todos os pesquisadores utilizam tecnologias digitais, seja na redação de texto, consulta em bases de dado ou até utilizando métodos computacionais. Há inúmeras formas de trabalhar com dados e pesquisa em humanidades. Abordamos algumas delas nos textos indicados nas Referências, como através da ciência de dados e softwares que auxiliam no manejo quantitativo e qualitativo de informações. Neste breve texto demonstraremos um passo a passo de como utilizar ferramentas gratuitas para fazer mapeamentos em consideráveis volumes de texto, para quem quer ter um primeiro contato com o assunto.


Referência:


Rota, Alesson R.. Mineração de história em arquivos digitalizados IN: Caminhos da história digital no Brasil. Vitória: Editora Mil Fontes, 2022. pp. 89-109.


Rota, Alesson R.. 2022. «El Uso De La minería De Datos Como heurística Para La teoría De La Historia Y La Historia De La historiografía». Amoxtli, n.º 7 (mayo). Santiago, CL. https://doi.org/10.38123/amox7.205.


Passo a passo

O primeiro passo é identificar em que tipo de formato está os arquivos pretendidos para a pesquisa. Como podem ser muitos, exemplificaremos com o formato .pdf, sendo comumente utilizado por humanistas para guardar digitalizações, publicações etc. Se se trata de um documento digitalizado sem Reconhecimento Óptico de Caractere, siga a Parte I e II. Caso seja um documento já reconhecido ou nativo do ambiente digital, pula para a parte II.


Parte I

Documentos históricos digitalizados nada mais são que fotos. Para pesquisar neles é necessário converter para texto. Utilizaremos uma ferramenta online para isto chamada Lightpdf. Basta entrar no site, subir os arquivos, escolher o idioma que será reconhecido e o formato de exportação. Exporte em .pdf, pois utilizaremos o software Foxitpdf Reader para fazer as buscas coletivas. O site solicitará um registro quando fizer a transferência para o computador, mas é simples e gratuito. É recomendando não tentar converter de uma vez só arquivos muito grandes (mais de 500 páginas ou 1 giga). Em casos assim, recomenda-se dividir o arquivo em partes.




Parte II

Para nosso teste selecionei algumas revistas argentinas sobre temas culturais latino-americanas do início do século XX. Elas possuem número de páginas e periodicidades diferentes, variando entre 50 e 200 páginas cada volume.



O software que utilizaremos para fazer as buscas chama-se FoxitPdf Reader. Basta baixa e instalar a versão gratuita.



Com o programa aberto, observa a lupa no canto superior direito. Clica nela e vá em Advancede Search. Abrirá uma aba similar a abaixo:



Agora basta configurar os termos de busca e a pasta em que será feito o mapeamento coletivo. Na primeira caixa escolhemos All PDF documento in, que indica que queremos buscar em todos os documentos em uma determinada pasta. Na segunda caixa escolhemos qual é esta pasta. Na terceira caixa escolhemos que tipo de busca queremos efetuar: se é uma palavra específica, um conjunto de palavras ou algum padrão, como data, assinatura, ano etc. Buscaremos duas palavras em todos os documentos: história e América. Também é possível clicar em “more” e definir critérios mais seletivos para a busca, caso a primeira tentativa retorne mais resultados do que o espero, mas não faremos isso. Sinta-se a vontade para explorar a ferramenta.











Ao clicar em Search, obtemos o seguinte mapeamento em formato de fichamento:






















361 resultados em 11 documentos. É possível abrir cada caixa e explorar previamente os resultados. Ao lado de New Search há o botão para salvar a pesquisa, que pode ser feita em PDF o CSV. Ambos formatos guardam a estrutura de um fichamento. Arquivos em .pdf são mais amigáveis de manipular, mas o formato .CSV permite para versatilidade no uso das informações. Mas exploraremos essa possibilidade em outro tutorial.















65 visualizações0 comentário

Posts recentes

Ver tudo
bottom of page