Base de Datos
La base de datos consiste de 3 tablas principales y 2 tablas con atributos de entrenamiento.
Tablas Principales
Las tablas principales son:
Categories Sample
La tabla consta de 3 columnas:
- podcast_id: id para el podcast
- category: nombre de la categoria
- category_id: id de la categoria
Esta tabla es utilizada para generar las relaciones IsA
en Neo4j.
Acceder archivo
Podcast Sample Title
La tabla consta de 2 columnas:
- podcast_id: id del podcast
- title: título del podcast
La tabla es utilizada para mostrar los títulos en las recomendaciones.
Acceder archivo
Ratings Sample
La tabla consta de 4 columnas:
- podcast_id: id del podcast evaluado
- user_id: id del usuario realizando la evaluación
- rating: rating del podcast entre 1 y 5
- liked: si rating es mayor a 2 o no
Esta tabla es utilizada para generar las relaciones Rating
en Neo4j.
Acceder archivo
Tablas de entrenamiento
Las tablas de entrenamiento son:
X Train
La tabla consta de 13 columnas:
- podcast_id: id del podcast
- user_id: id del usuario
- cat_based: suma de ratings obtenidos en paths de la forma
(User)->(Podcast)<-(Category)->(Podcast)
- cat_cnt: cuenta de paths de la forma
(User)->(Podcast)->(Category)<-(Podcast)
- user_based: suma de ratings obtenidos en paths de la forma
(User)->(Podcast)<-(User)->(Podcast)
- user_cnt: cuenta de paths de la forma
(User)->(Podcast)<-(User)->(Podcast)
- adamic_adar: multiplicación de rating con la métrica Adamic Adar entre podcasts de la forma
(User)->(Podcast)--()--(Podcast)
- resource_allocation: multiplicación de rating con la métrica Resource Allocation entre podcasts de la forma
(User)->(Podcast)--()--(Podcast)
- link_cnt: cuenta de paths de la forma
(User)->(Podcast)--()--(Podcast)
- cat_avg: cat_based dividido entre cat_cnt
- user_avg: user_based dividido entre user_cnt
- adar: adamic_adar dividido entre link_cnt
- ra_avg: resource_allocation dividido entre link_cnt
Esta tabla es utilzada para entrenar el modelo de regresión logística
Acceder archivo
Y train
Esta tabla contiene una única columna:
- liked: si el rating es mayor o igual a 3
Esta tabla es el objetivo del entrenamiento del modelo
Acceder archivo