Skip to content

Cambio dataset de ARG y agrego preprocesado#4

Open
ignacioSaccomano wants to merge 1 commit intojfreddypuentes:masterfrom
ignacioSaccomano:master
Open

Cambio dataset de ARG y agrego preprocesado#4
ignacioSaccomano wants to merge 1 commit intojfreddypuentes:masterfrom
ignacioSaccomano:master

Conversation

@ignacioSaccomano
Copy link

Notas de los aportes más importantes:

👉 Soy de Argentina y algunas palabras del dataset no eran consideradas insultos acá. Las que dejé considero que son bastante útiles porque representan la mayoría de casos.

👉 Agregué la clase RemoveDuplicates: Remueve caracteres duplicados en las palabras. Si bien no es bueno para palabras inocuas que contienen letras duplicadas, es excelente para no dejar pasar casos donde los usuarios repiten letras en insultos para saltearse filtros.

🗂️ En cuanto a los otros archivos, agregue algunos que permiten ahorrar un poco de tiempo a la hora de crear mas datasets o actualizarlos, ya que la mayoría de insultos tienen dos géneros (con la implementación se escriben una sola vez en el archivo).

Espero que sirva, y ante cualquier novedad me encantaría permanecer en contacto!

@jfreddypuentes jfreddypuentes self-assigned this Jun 15, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants