Ray Wang, do Altimeter Group, “o especialista em software", pode ser contado para fornecer um alimento interessante para a reflexão. Na semana passada, foi sobre as mudanças no mercado de gerenciamento de dados mestres (MDM): "O foco nos resultados impulsiona a busca por valor." De acordo com Wikipedia, O MDM inclui o "conjunto de processos e ferramentas que define e gerencia de forma consistente as entidades de dados não transacionais de uma empresa". organização (também chamados de dados de referência)."
A racionalização das definições de dados em grandes organizações tem sido um problema difícil há muitos anos. Um problema que está se expandindo graças ao aumento do número de dados. Daí a necessidade de métodos mais eficazes para gerenciar metadados - a descrição e a lógica por trás dos dados que estão sendo usados. A MDM é necessária para garantir que todos estejam se reportando aos mesmos conceitos.
Os principais "dados mestre" financeiros do governo no Planejamento de Recursos Governamentais (GRP) estão localizados no Plano de Contas (COA). O COA contém informações sobre a organização, códigos orçamentários, códigos contábeis, programas, projetos, atividades, objetivos e estatísticas. A MDM no governo se torna mais desafiadora com informações sobre compras (fornecedores), receita (clientes), tributação (contribuintes) e serviço civil (funcionários). O advento da gestão de desempenho destaca a necessidade de racionalizar os dados em vários sistemas: os governos precisam de definições de dados consistentes para relatórios e painéis de controle.
Eu tinha acabado de voltar de um encontro no Conferência Internacional da Web Semântica quando li o artigo do Ray sobre MDM. Web semântica às vezes é chamada de "Web 3.0". (Não entrarei no debate sobre o quão "semântica" é a Web semântica ou se ela é a "Web 3.0"). A tecnologia semântica passou do mundo acadêmico para o mundo dos negócios. Ela pode ser usada para classificar dados estruturados e não estruturados. (E integrar-se à "deep web" por meio de bancos de dados.) Ocorreu-me que essa tecnologia representa o futuro do MDM.
Para ampliar meus comentários no blog do Ray:
1. Vertical: A tecnologia semântica é ideal para a criação de taxonomias verticais. O aprendizado de máquina tem sido mais eficaz quando aplicado a domínios únicos. (Isso está mudando à medida que a tecnologia melhora para lidar com vários domínios).
2. Estruturado e não estruturado: projetadas para aproveitar tanto o conteúdo estruturado quanto o não estruturado. As tecnologias semânticas podem extrair conceitos e identificadores diretamente de dados não estruturados. Elas também podem mostrar padrões inesperados com dados estruturados, pois não se limitam à estrutura de banco de dados explicitamente relacional.
3. Dados na nuvem: Pode usar a Web e "dados vinculados" de sistemas externos. A tecnologia de pesquisa atual indexa páginas da Web. As tecnologias da Web semântica podem extrair dados de bancos de dados. E não é necessário haver uma única fonte de dados - essa é a vantagem dos "dados vinculados", que permitem que vários servidores exponham informações.
4. Estilos: A tecnologia semântica tende a se concentrar nos conceitos comerciais em vez de na camada física. (Ao mesmo tempo, apoia a racionalização de dados na camada física.) Os usuários precisam que as informações sejam apresentadas como conceitos para descobrir fatos importantes. Caso contrário, os usuários precisam ser especialistas em bancos de dados.
5. Governança: Pode ser possível aproveitar as tecnologias da Web semântica para a governança - rastrear usos indevidos de classificações, fatos de identidade que poderiam alterar as classificações. E isso pode reduzir o ônus de garantir que os dados sejam classificados de uma maneira específica.
6. Redes sociais: A tecnologia semântica está sendo usada atualmente para analisar a reação dos clientes em sites de redes sociais para avaliar opiniões. As tecnologias semânticas podem ajudar a determinar se uma publicação de blog ou uma série de tweets se refere diretamente à sua organização ou não.
7. Todos os tipos de dados: A tecnologia semântica se estende bem a todo o conteúdo relacionado a texto. Há também algum trabalho de integração com todas as mídias. Essa tecnologia está ajudando a se libertar dos contêineres arbitrários de dados (documentos, vídeos, bancos de dados etc.)