Suurten aineistojen tutkiminen

Torstai 29.8.2019

klo 13.15 – 14.45

Sali: D10B (Päätalo)

 

Pj. Jaakko Peltonen, professori, Tampereen yliopisto

Suuret tietoaineistot ovat nykyajan datatieteen olennainen osa, ja niiden analysoimiseen on kehitetty lukuisia menetelmiä ennustustehtävistä eksploratiiviseen analysointiin. Tässä sessiossa kolme puhujaa kertovat näkökulmistaan ja menetelmistään suurien tietoaineistojen käsittelyyn.

Puhujat

Jaakko Peltonen, professori, Tampereen yliopisto
Interaktiivinen koneoppiminen suurten tietoaineistojen tiedonhakuun ja analysointiin

Tutkijoiden täytyy usein eksploroida suuria tietoaineistoja löytääkseen trendejä, rakenteita ja ilmiöitä, jotka vahvistavat tai haastavat aiempia oletuksia. Suuret aineistot kuten sosiaalimedian tekstiaineistot ovat liian laajoja, jotta kaikkia esimerkkejä voisi käydä läpi, ja liian korkeaulotteisia, jotta muuttujien vaikutuksia ja riippuvuuksia voisi löytää ilman laskennallisia menetelmiä. Tässä esitelmässä esittelen koneoppimisen menetelmiä, jotka etsivät aineistoista rakenteita. Kerron aihemalleista, joilla olemme löytäneet sosiaalimedian tekstiaineistojen keskustelun aiheista. Kerron myös epälineaarisista visualisointimenetelmistä, jotka auttavat havaitsemaan korkeaulotteisista aineistoista niiden aliryhmiä, suuntia ja muotoja. Kerron lopuksi interaktiivisista tiedonhakujärjestelmistä, jotka yhdistävät sisällön aihemallinnuksen visuaalisiin hakuratkaisuihin.

Heikki Huttunen, Tenure track -professori, Tampereen yliopisto
Syvät neuroverkot – tekoälyn syvin olemus

Tekoäly on lyönyt itsensä läpi sekä laskennallisissa tieteissä että julkisessa keskustelussa. Tämän vuosikymmenen mullistus käynnistyi uudenlaisten neuroverkkojen tutkimuksen tuloksena. Neuroverkot sinänsä eivät ole uusi asia, mutta noin 10 vuotta sitten onnistuttiin ensimmäisen kerran opettamaan ns. syviä verkkoja, joissa peräkkäisiä laskentakerroksia oli enemmän kuin yhden käden sormilla laskettava määrä. Sittemmin neuroverkkojen kehitystä on edistänyt nimenomaan syvyyden kasvu, ja niiden avulla onkin ratkaistu useita aiemmin ratkeamattomia ongelmia – puheentunnistuksesta Go-pelin voittoon. Esityksessä taustoitetaan neuroverkkojen yleistä tutkimusta sekä esitellään niiden paikallisia teollisia sovelluksia.

Konstantinos Stefanidis, Associate Professor (tenure track), Tampereen yliopisto
On Exploring Knowledge Bases Using Summaries

In recent years, several Knowledge Bases (KBs) have been built to enable large-scale knowledge sharing, but also an entity-centric Web search, mixing both structured data and text querying. These KBs offer machine-readable descriptions of real-world entities, e.g., persons and places, published on the Web as Linked Data. However, due to the different information extraction tools and curation policies employed by KBs, multiple, complementary and sometimes conflicting  descriptions of the same real-world entities may be provided.

Entity Resolution (ER) aims to identify different descriptions in various KBs that refer to the same entity. ER is challenged by the Variety, Volume and Veracity of entity descriptions published in the  Web. To address them, we propose the MinoanER framework that simultaneously fulfils full automation, support of highly heterogeneous entities, and massive parallelisation of the ER process.

Next, motivated by the lack of an effective method to explore KBs, we developed RDFDigest+. RDFDigest+ is a system that uses summaries for transparently and efficiently handling exploratory operations on large KBs. In its core, it employs an algebra where two operators, namely extend and zoom, are treated as first-class citizens in various exploration scenarios. Extend focuses on a specific subgraph of the initial summary, whereas zoom on the whole graph, both providing granular information access to the end-user.