Ray Wang do Grupo Altimeter, “o insider do software", pode ser contado para fornecer um interessante alimento para a reflexão. Na semana passada, foi sobre as mudanças no mercado da Gestão de Dados Mestres (MDM): "A concentração nos resultados impulsiona a procura de valor." De acordo com Wikipédia, A MDM inclui o "conjunto de processos e ferramentas que define e gere de forma consistente as entidades de dados não transaccionais de um organização (também designados por dados de referência)."
A racionalização das definições de dados em grandes organizações tem sido um problema difícil durante muitos anos. Um problema em expansão graças a um número cada vez maior de dados. Daí a necessidade de métodos mais eficazes para gerir os metadados - a descrição e a lógica por detrás dos dados que estão a ser utilizados. A MDM é necessária para garantir que toda a gente está a reportar sobre os mesmos conceitos.
Os principais "dados mestre" financeiros da administração pública no Planeamento de recursos governamentais (GRP) estão localizados no Plano de contas (COA). O COA contém informações sobre a organização, códigos orçamentais, códigos contabilísticos, programas, projectos, actividades, objectivos e estatísticas. A MDM na administração pública torna-se mais difícil com as informações sobre aquisições (fornecedores), receitas (clientes), impostos (contribuintes) e função pública (funcionários). O advento da gestão do desempenho salienta a necessidade de racionalizar os dados em vários sistemas: os governos precisam de definições de dados coerentes para relatórios e painéis de controlo.
Tinha acabado de regressar de um encontro no Conferência Internacional da Web Semântica quando li o artigo do Ray sobre MDM. Web semântica é por vezes referida como "Web 3.0". (Não vou entrar no debate sobre o quão "semântica" é a Web semântica - ou se esta é a "Web 3.0"). A tecnologia semântica passou do mundo académico para o mundo empresarial. Pode ser utilizada para classificar dados estruturados e não estruturados. (E integrar-se com a "deep web" através de bases de dados.) Ocorreu-me que esta tecnologia representa o futuro da MDM.
Para desenvolver os meus comentários no blogue do Ray:
1. Vertical: A tecnologia semântica é ideal para a criação de taxonomias verticais. A aprendizagem automática tem sido mais eficaz quando aplicada a domínios únicos. (Isto está a mudar à medida que a tecnologia melhora para lidar com vários domínios).
2. Estruturado e não estruturado: concebidas para tirar partido de conteúdos estruturados e não estruturados. As tecnologias semânticas podem extrair conceitos e identificadores directamente de dados não estruturados. Podem também mostrar padrões inesperados com dados estruturados porque não se limitam à estrutura explícita da base de dados relacional.
3. Dados na nuvem: Pode utilizar a Web e "dados ligados" de sistemas externos. A tecnologia de pesquisa actual indexa páginas Web. As tecnologias da Web semântica podem extrair dados de bases de dados. E não é necessário haver uma única fonte de dados - esta é a vantagem dos "dados ligados" que permitem que vários servidores exponham informações.
4. Estilos: A tecnologia semântica tende a concentrar-se nos conceitos empresariais e não no nível físico. (Ao mesmo tempo, apoia a racionalização dos dados no nível físico.) Os utilizadores precisam de ter informação apresentada como conceitos para descobrir factos importantes. Caso contrário, os utilizadores têm de ser especialistas em bases de dados.
5. Governação: Poderá ser possível tirar partido das tecnologias da Web semântica para a governação - detectar utilizações indevidas das classificações, factos de identidade que possam alterar as classificações. Além disso, pode reduzir o ónus de garantir que os dados são classificados de uma determinada forma.
6. Redes sociais: A tecnologia semântica está a ser utilizada actualmente para analisar a reacção dos clientes em sites de redes sociais para avaliar opiniões. As tecnologias semânticas podem ajudar a determinar se uma publicação no blogue ou uma série de tweets se refere directamente à sua organização ou não.
7. Todos os tipos de dados: A tecnologia semântica estende-se bem a todos os conteúdos relacionados com texto. Há também algum trabalho de integração com todos os meios de comunicação. Esta tecnologia está a ajudar a libertar-se dos contentores arbitrários de dados (documentos, vídeos, bases de dados, etc.)