Skip to main content
Web Development

Como organizamos informação - Parte do livro sobre Semântica

Data helps solve problems. — Anne Wojcicki

Diego Eis

Essa é uma parte do livro Introdução à Web Semântica que escrevi. Como é um livro de 2017, então, pode ter alguns pontos desatualizados. Eu não editei para postar aqui. Mas acho que o grande contexto continua o mesmo.

É interessante que hoje, organizar, categorizar, curar e produzir conteúdo e informação é algo tão comum e necessário que esse assunto se torna relevante novamente. Grande parte das pessoas "comuns", não tomam tempo ou não veem importância em fazer qualquer tipo de filtro ou curadoria do conteúdo que absorvem todos os dias.

Estamos avançando para um cenário onde basicamente o fluxo de informação vai fluir e ficar conectado cada vez mais, alimentando não só as redes sociais, mas diversas outras fontes de serviços. Não vai ser fácil criar mecanismos para controlar esse fluxo, mantendo o mínimo de organização informações que ficarão guardados ou relacionadas nesses serviços.

Pode ser até utópico falar sobre esse assunto agora, até por que a Web 3 ainda parece ser algo meio longe. Mesmo assim, entender um pouco sobre como  a informação é conectada, relacionada e consumida é importante.

Produzindo informação como nunca

A humanidade nunca produziu tanto conteúdo como hoje. Um artigo escrito em 2010 para o TechCrunch, Eric Schmidt citou que a cada dois dias, a humanidade produzia mais conteúdo do que se produzia em 2003. Em outro artigo na Science Daily - site sobre ciência e tecnologia - fala que 90% dos dados que existem no mundo foram criados nos últimos entre 2011 e 2013. Isso quer dizer que a humanidade criou 90% dos dados do mundo no período de dois anos. Eu não sei você, mas fico bastante impressionado com uma informação dessa.

Gerar, ler e interpretar dados faz parte da nossa vida cotidiana e é tão natural como dormir. O mundo é movido por dados gerados no mercado financeiro. Até a decisão de sair ou não com o seu guarda-chuva é baseado em dados meteorológicos que a moça do tempo informou no Jornal da noite anterior. Você, como pessoa, gera um enorme números de dados todos os dias.

Nos últimos anos eu fiquei viciado em medir alguns dados relacionados à minha saúde. Eu precisava perder peso rápido e queria conhecer mais meu corpo e meus hábitos. Na época eu comprei um sensor chamado FitBit One - que nem existe mais hoje - que me ajudou a medir a quantidade de passos que ando diariamente, qualidade do meu sono (medindo quanto tempo dormi, quantas vezes acordei durante a noite, quanto tempo fiquei em sono profundo), quantidade de calorias ingeridas, calorias perdidas durante o dia, quantidade de quilômetros que percorri, medição de massa magra, massa gorda, medidas do corpo e um monte de outras coisas. Tudo o que qualquer wearable faz hoje.

Já na internet, a geração de dados dados é constante e ininterrupta. Toda vez que entramos em um site, geramos dados como número de páginas visitadas, tempo de permanência em cada página, links clicados, qual o seu browser, sistema operacional, tamanho do monitor, IP e etc. Todos esses dados, depois de processados, geram uma massa de informações que ajudarão a tomar decisões importantes.

A internet guarda dados de empresas e governos. Guarda dados científicos, dados sobre acontecimentos históricos, notícias de última hora, e principalmente dados pessoais. Você pode citar uma série de outros exemplos aqui.

Mas tem um problema: a grande maioria desses dados não podem ser relacionados, conectados e reutilizados.

Em 1945, quando Vannevar Bush escreveu As We May Think, um dos seus questionamentos era que a humanidade produzia conteúdo a todo momento, mas esse conteúdo não podia ser consultado de maneira fácil, e principalmente, não podia ser relacionado.

Relacionar os dados é um passo para você transformar todos esses bits e bytes em algo mais importante: informação. Mas como fazemos isso?

Transformando dados em informação

A palavra dado vem de uma única palavra latina datum, que significa "algo dado". Com o passar dos anos, esse significado mudou e hoje a palavra "dado" é como o plural de "datum".

Dados são a matéria prima da informação. Um dado, sozinho, raramente traz algum sentido ou significado de forma que possamos usá-lo de forma útil. Dados são simplesmente fatos de pedaços de informação, mas não informação em si. Dado é algo cru, que precisa ser processado, organizado, interpretado ou estruturado para que possamos extrair algo realmente útil e que tenha significado, resultando em informação.

Informação é o resultado do tratamento e do relacionamento desses dados. O dado, por si só não é nada.

Dados se tornam mais poderosos quando relacionamos com outros dados. Em uma apresentação no TED, Hans Rosling, mostra como os dados podem nos dar informações importantes sobre o desenvolvimento humano.

Imagine se todos os órgãos governamentais, ongs e outras instituições disponibilizassem seus dados para que pesquisadores como Hans Rosling pudessem organizar e extrair informações importantes para o mundo inteiro. O próprio Hans comenta em seu vídeo que os insights mais importantes estão presos em bancos de dados, sendo vendidos em vez de disponibilizados de graça, em formatos incompatíveis em vez de serem acessíveis por qualquer um.

Suponha que temos acesso aos dados de uma fonte segura, que possamos tratá-los, interpretá-los e estruturá-los de forma que pudéssemos extrair facilmente essas informações, como você organizaria essa massa gigante de dados?

Como organizamos informação?

Primeiro, por que precisamos organizar a informação? A resposta é simples: para facilitar a consulta dessa informação.

Se geramos informação a partir de dados, essa informação será usada para algum objetivo. Toda a informação produzida, precisa ser consultada, seja por você, ser humano ou por máquinas. Quando digo máquinas, quero dizer qualquer coisa que possa ler essas informações e reutilizá-las para alcançar algum objetivo. Manja ChatGPT ou até qualquer buscador disponível hoje.

A record if it is to be useful to science, must be continuously extended, it must be stored, and above all it must be consulted. — Vannevar Bush, As We My Think

A produção desenfreada de informação não é um problema novo. Pesquisadores e estudiosos já discutiam maneiras de guardar informação de forma que ela pudesse ser consultada e principalmente relacionada a qualquer momento.

Em 1945, era comum guardar informação em microfilmes, fitas magnéticas ou em antigos discos de cera. Só em 1982 os CDs foram lançados pela Philips e pela Sony. Em 1996, sendo um adolescente, eu já tinha acesso a HDs de 3Gb. E daí pra frente guardar informação não era mais um problema sério.