Base de Datos
La base de datos consiste de 3 tablas principales y 2 tablas con atributos de entrenamiento.
Tablas Principales
Las tablas principales son:
Categories Sample
La tabla consta de 3 columnas:
- podcast_id: id para el podcast
- category: nombre de la categoria
- category_id: id de la categoria
Esta tabla es utilizada para generar las relaciones IsA en Neo4j.
Acceder archivo
Podcast Sample Title
La tabla consta de 2 columnas:
- podcast_id: id del podcast
- title: título del podcast
La tabla es utilizada para mostrar los títulos en las recomendaciones.
Acceder archivo
Ratings Sample
La tabla consta de 4 columnas:
- podcast_id: id del podcast evaluado
- user_id: id del usuario realizando la evaluación
- rating: rating del podcast entre 1 y 5
- liked: si rating es mayor a 2 o no
Esta tabla es utilizada para generar las relaciones Rating en Neo4j.
Acceder archivo
Tablas de entrenamiento
Las tablas de entrenamiento son:
X Train
La tabla consta de 13 columnas:
- podcast_id: id del podcast
- user_id: id del usuario
- cat_based: suma de ratings obtenidos en paths de la forma
(User)->(Podcast)<-(Category)->(Podcast) - cat_cnt: cuenta de paths de la forma
(User)->(Podcast)->(Category)<-(Podcast) - user_based: suma de ratings obtenidos en paths de la forma
(User)->(Podcast)<-(User)->(Podcast) - user_cnt: cuenta de paths de la forma
(User)->(Podcast)<-(User)->(Podcast) - adamic_adar: multiplicación de rating con la métrica Adamic Adar entre podcasts de la forma
(User)->(Podcast)--()--(Podcast) - resource_allocation: multiplicación de rating con la métrica Resource Allocation entre podcasts de la forma
(User)->(Podcast)--()--(Podcast) - link_cnt: cuenta de paths de la forma
(User)->(Podcast)--()--(Podcast) - cat_avg: cat_based dividido entre cat_cnt
- user_avg: user_based dividido entre user_cnt
- adar: adamic_adar dividido entre link_cnt
- ra_avg: resource_allocation dividido entre link_cnt
Esta tabla es utilzada para entrenar el modelo de regresión logística
Acceder archivo
Y train
Esta tabla contiene una única columna:
- liked: si el rating es mayor o igual a 3
Esta tabla es el objetivo del entrenamiento del modelo
Acceder archivo