Recordad que para pedir soporte alguno, debéis facilitar los datos de soporte oportunos por favor, mirad aquí y leer las Normas generales del foro, esto nos servirá de ayuda para dar el mejor soporte..

Gracias.

La Administración de phpBB España.

SEO Sitemap 1.1.1 >> Google no acepta mi xml

Soporte de Extensiones para phpBB 3.3
💡 Como instalar una Extensión
Responder
peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

SEO Sitemap 1.1.1 >> Google no acepta mi xml

#1

Mensaje por peibol »

URL: https://www.foroelchecf.com/
Estilo(s) usuado(s): prosilver (cambiado de color con Colorizeit.com)
Extensiones instaladas: Advertisement Management, External Link In New Window, Google Analytics, Header Banner, Imgur, Pages, SEO Metadata, phpBB3 SEO Sitemap
Versión de phpBB: 3.4
Versión de PHP: 7.4.22
Versión de MySQL: MySQL(i) 5.7.35
Servidor: de pago
Si es una actualización desde otra versión: reciente actualización de 3.2.8 a 3.4
Si es una conversión desde otro tipo de Foro: no

Hola,
Tengo un problemilla con la extensión SEO Sitemap 1.1.1. Aparentemente funciona bien y genera los xml pero tarda mucho en hacerlo.

Así pues, cuando accedo a https://www.foroelchecf.com/sitemap.xml y el xml no ha sido creado en las últimas horas, tarda unos minutos en mostrarlo. A veces da un timeout de CloudFlare, otras veces lo genera de manera dinámica tras un par de minutos.

El sitemap.xml está dado de alta en Webmaster Tools, pero Google solo me coge 74 urls como válidas. En cambio, tengo 101.000 urls excluidas con el mensaje:
Descubierta: actualmente sin indexar

Este mensaje, según Google, significa que:
Descubierta: actualmente sin indexar. Google ha encontrado la página, pero todavía no la ha rastreado; probablemente porque ha determinado que, de hacerlo, el sitio web se sobrecargaría. Por tanto, ha tenido que aplazar el rastreo. Por este motivo, en el informe no aparece la fecha del rastreo más reciente.

Sospecho que la demora en generar el xml del sitemap ocasiona que Google siempre posponga para más tarde la indexación de las miles de urls de mi foro. El problema es que no sé como solucionarlo. En teoria no hay mucha carga en el servidor así que no sé por donde atacar.

Si a alguien se le ocurre algo, se lo agradecería.

Gracias por adelantado. Un saludo!


Avatar de Usuario
AlfredoRamos
Ex Staff
Mensajes: 1235
Registrado: 14 Ene 2017, 22:18
Género:

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#2

Mensaje por AlfredoRamos »

peibol escribió: 02 Sep 2021, 13:13

A veces da un timeout de CloudFlare, otras veces lo genera de manera dinámica tras un par de minutos.

Si estas usando Cloudflare, podrías crear una nueva regla para los sitemap estableciendo "Cache Level" a "Cache Everything", y en tu servidor asegurarse de establecer una tiempo de expiración de cache para los sitemap de al menos 24 horas.

Eso tal vez ayudaría en el aspecto de tiempo de carga del sitemap.

Sin embargo eso no ayudaría con los errores que al parecer tiene la extensión, ya que al navegar por los distintos sitemap me encontré con un par de estos errores.

Imagen

La extensión al parecer lleva varios años sin desarrollo de su autor.

peibol escribió: 02 Sep 2021, 13:13

Sospecho que la demora en generar el xml del sitemap ocasiona que Google siempre posponga para más tarde la indexación de las miles de urls de mi foro. El problema es que no sé como solucionarlo. En teoria no hay mucha carga en el servidor así que no sé por donde atacar.

¿Hace cuanto tiempo que subiste los sitemap a Google Search Console?

Ese mensaje es común cuando acabas de subir un sitemap/feed muy recientemente, y en ese caso simplemente indica (en pocas palabras) que Google ya sabe de su existencia, pero aún no termina de revisar esas URLs.

Cuando hay un problema con las URLs, normalmente te marca otro tipo de error, y ya no en gris, sino en rojo.

Si enviaste tu sitio a Google Search Console (los sitemap) hace menos de 1 mes, ese mensaje es normal. Solo espera pacientemente que Google indexe las URLs.

Si en cambio lleva en ese estado más de 2 meses, tal vez quisieras contactar a Google directamente, aunque conociendo su soporte comunitario, es posible que te indiquen que corrijas tus sitemaps primero.

Algunas de mis extensiones:
Imagen Imgur | :chart_with_upwards_trend: SEO Metadata | Imagen Markdown | :see_no_evil: Simple Spoiler BBCode | :shield: hCaptcha
:trophy: Checa todas mi extensiones aprobadas :trophy:

:penguin: Usuario de Arch Linux :penguin:


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#3

Mensaje por peibol »

Gracias por la respuesta.
Las primeras subidas de sitemap.xml son de marzo de 2021. Las marca como correctas pero no indexó.
El 31/8 cambié la configuración para optimizar la generación dinámica del xml a una carga más ligera:

  • Tiempo de caché: 72h

  • Límite URL: 10000

  • Tamaño preferido de procesamiento por lotes: 50000

El sitemap índice y los 11 sitemaps hijo están marcados como correctos y las 101.000 urls como excluidas (en gris). Tengo 98 marcadas con ERROR y en rojo, aunque sí son accesibles (supongo que por un error puntual de acceso).
Seguiremos esperando, pero no le tengo mucha fe. Conozco WMT desde hace tiepo y antes era bastante más inmediato. No sé si ahora con la democatrización de los trabajos SEO tienen mucha carga de trabajo y los plazos se alargan...


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#4

Mensaje por peibol »

Hola,

Primero de todo muchas gracias a todos de nuevo por la ayuda que me prestásteis en su día. Me ayudo a agilizar la generación del sitemap. Sobre todo a AlfredoRamos que es un crack.

He dejado madurar el tema un poco pero sigo sin hacerlo funcionar. Y hoy por fin he caido en un detalle que quizás sea importante.

Mi web está en https://www.foroelchecf.com pero el sitemap lo crea en https://foroelchecf.com/sitemaps.xml

Cuando accedo a webmastertools para notificar a Google mi sitemap, pues se forma un lío. Tengo ambas urls (con y sin www) dadas de alta como propiedad:

  • Cuando entro en la WWW el sitemap creado no me vale porque genera el enlace al sitemap a partir de la url con www y no los encuentra.

  • Cuando entro en la SIN WWW el sitemap creado no me vale porque, aunque lo encuentra, crea registros a una web no utilizada por Google (https://foroelchecf.com no aparece en el buscador)

¿Hay alguna manera de decirle a la extension que use las www para crear el sitemap?
Es decir, que el sitemap este en https://www.foroelchecf.com/sitemap.xml y no en https://foroelchecf.com/sitemap.xml
El caso es que en mi panel de administador, en la pestaña extensiones y en la config. de la extension me indica que URL del Sitemap: https://www.foroelchecf.com/sitemap.xml pero luego no lo crea ahí

Ya aviso que en la config. del foro, en el panel de control > Configuracion del servidor > Configuracion de URL > Nombre de dominio tengo puesto www.foroelchecf.com

Muchas gracias de nuevo.


Avatar de Usuario
AlfredoRamos
Ex Staff
Mensajes: 1235
Registrado: 14 Ene 2017, 22:18
Género:

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#5

Mensaje por AlfredoRamos »

peibol escribió: 16 Feb 2022, 11:03

¿Hay alguna manera de decirle a la extension que use las www para crear el sitemap?

No estoy seguro, pero ese ajuste sería mejor hacerlo desde el servidor, ya que de cualquier modo es necesario que redirijas el dominio sin www al que tiene www para evitar ser penalizado por contenido duplicado.

Si en tu archivo .htaccess tienes algo similar al de la guía Configurar conexión segura (HTTPS) con un certificado SSL, podrías remplazarlo por algo como lo siguiente:

Código: Seleccionar todo

RewriteCond %{HTTPS} !=on
RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]

RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteRule ^(.*)$ https://www.%{HTTP_HOST}%{REQUEST_URI} [R=301,L]
peibol escribió: 16 Feb 2022, 11:03

Cuando entro en la SIN WWW el sitemap creado no me vale porque, aunque lo encuentra, crea registros a una web no utilizada por Google (https://foroelchecf.com no aparece en el buscador)

Con o sin www, tu web debería aparecer en Google.

¿Te marca algún error? ¿o por qué no aparece en el buscador?

Algunas de mis extensiones:
Imagen Imgur | :chart_with_upwards_trend: SEO Metadata | Imagen Markdown | :see_no_evil: Simple Spoiler BBCode | :shield: hCaptcha
:trophy: Checa todas mi extensiones aprobadas :trophy:

:penguin: Usuario de Arch Linux :penguin:


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#6

Mensaje por peibol »

Gracias AlfredoRamos por la respuesta. Quería ponerme con lo que me dices antes pero por movidas en casa me ha sido imposible.

He hecho el cambio en el .htaccess para la redirección de foroelchecf.com a www.foroelchecf.com con éxito. Juraría que esto lo tenía funcionando, pero quizás en alguna actuación pasada se perdió. Un tema solventado. :rock:

He decidido reinstalar la extensión seo_sitemap_1.1.1 con esta nueva situación. Me mosquea el hecho de que la propia extensión de indique que está en www.foroelchecf.com/sitemap.xml y al pinchar en el enlace te lleve a foroelchecf.com/sitemap.xml

Ahora la habilitación de la extensión tras la instalación me está dando timeouts. Seguiré probando a ver si la consigo habilitar y ver qué pasa.

AlfredoRamos escribió: 16 Feb 2022, 19:32

¿Te marca algún error? ¿o por qué no aparece en el buscador?

Sobre tu duda, Google se está comportando de un modo que no entiendo.

Por un lado si buscas foro elche en Google solo muestra el raíz www.foroelchecf.com y alguna de las secciones de la web. Tiene sentido que no tenga indexado nada más pues el sitemap cuelga de la url sin www.

Lo raro es que no indexe el raíz foroelchecf.com ni ninguna de las urls de la web pues el sitemap sí debería de funcionar ok para ella (aunque no es lo que yo deseo). En Webmastertools tampoco dice que haya indexado nada. Muy raro.

Así que voy a intentar habilitar e indexar de nuevo las urls mediante la extensión. Luego pasarle el sitemap a Webmastertools de la forma que a mi me interesa. Y dejaré que la cosa madure unos días a ver si noto algún cambio.

Volveré por aquí con los resultados.


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#7

Mensaje por peibol »

Bueno, pues poco a poco voy viendo la luz en este tema.

Parece que ya tengo muchas cosas solucionadas:

  • Después de reinstalar la extensión seo_sitemap_1.1.1 ahora el sitemap me lo genera en https://www.foroelchecf.com/sitemap.xml como quería.
  • La redirección foroelchecf.com a www.foroelchecf.com funciona.
  • La redirección http:// a https:// funciona.
  • La propiedad https://www.foroelchecf.com en Webmaster Tools empieza a andar.
  • WMT ya ha admitido el sitemap index leyendo 102.039 urls.

Ahora el problema es que de esas 102.039 urls:

  • Solo indexa 18 (índice y algunas páginas estáticas)
  • 39.900 páginas están excluidas con el mensaje "Descubierta: actualmente sin indexar"
  • 7.800 páginas están bloqueadas con el mensaje "Se ha bloqueado debido a que el acceso no está permitido (403)"
  • De las páginas restantes hasta las 102.039 no dice nada ¿?¿?¿?¿?

Voy a investigar de dónde vienen esas respuestas 403 porque el robots.txt no bloquea nada público y el foro es visitable como usuario invitado.

Por otro lado seguiré esperando a ver si aparecen esas 55.000 urls que Google conoce a través del sitemap.xml pero de las que no me informa de nada.

Se agradecen ideas

Joer, qué calvario...


Avatar de Usuario
AlfredoRamos
Ex Staff
Mensajes: 1235
Registrado: 14 Ene 2017, 22:18
Género:

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#8

Mensaje por AlfredoRamos »

peibol escribió: 03 Mar 2022, 10:36

39.900 páginas están excluidas con el mensaje "Descubierta: actualmente sin indexar"

Es cuestión de esperar, se tardará varias semanas en procesar las URLs.

peibol escribió: 03 Mar 2022, 10:36

7.800 páginas están bloqueadas con el mensaje "Se ha bloqueado debido a que el acceso no está permitido (403)"

Intenta inspeccionando alguna de esas URLs

Imagen

Luego dale en probar URL, con suerte te mostrará más información.

Imagen

Por lo pronto podrías revisar si el firewall de tu servidor esta bloqueando las peticiones de GoogleBot.

Algunas de mis extensiones:
Imagen Imgur | :chart_with_upwards_trend: SEO Metadata | Imagen Markdown | :see_no_evil: Simple Spoiler BBCode | :shield: hCaptcha
:trophy: Checa todas mi extensiones aprobadas :trophy:

:penguin: Usuario de Arch Linux :penguin:


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#9

Mensaje por peibol »

AlfredoRamos escribió: 03 Mar 2022, 19:57

Intenta inspeccionando alguna de esas URLs

Muchas gracias de nuevo. Son tantas cosas que comprobar que en ocasiones es mejor empezar con la mente fresca al día siguiente para seguir avanzando.

Haciendo lo que me indicas acabo de darme cuenta de que todos los errores 403 son con fecha de 27/2/2022 o anteriores, es decir, previos a mis últimos cambios. Creo que es mejor no darle vueltas porque los logs ya no recogen esos errores 403. Ayer eran 7800 urls y hoy ya son 7278 urls así que parece que la cosa avanza.

Respecto a la indexación de las 39.900 urls, lo mismo: dejarlo madurar. Ese número no ha cambiado de ayer a hoy,

Me sigue mosqueando que me falten unas 60.000 por contabilizar. Pero, de nuevo, mejor dejarlo trabajar. Hoy ha vuelto a revisar el sitemap index, veremos qué ocurre.

Revisaré también ese posible bloqueo en el firewall del server a los bots de Google aunque suena raro.

Seguiré informando. Igual hasta creamos una guía útil para otros usuarios.


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#10

Mensaje por peibol »

Tengo novedades.

Parece ser que Google ya ha leído correctamente el sitemap y desde el 3 de marzo me aparecen:

  • 95.000 urls por indexar.
  • 7.000 urls con error 403.
    Imagen

Mucho me temo que algo anda mal porque casi el 100% de las urls que encola para indexar acaban devolviendo un error 403. Eso me lleva a pensar que hay algún problema de accesos.

No veo nada raro en el firewall del servidor, tampoco en los logs ni en el robots.txt que proporciona acceso. Se me ocurre que pudiera ser un problema de permisos y roles.

He estado investigando y veo que el rol "Acceso de Robots" (ROLE_FORUM_BOT) que tengo asignado a todos los foros tiene la siguiente configuración:
Puede ver foros SI
Puede ver temas NO
Puede leer foros SI

¿Podría ser que el GoogeBlot no pudiera acceder a verlos temas (Puede ver temas NO) y por eso devuelve un Error403?
¿Hay alguna manera de simular cómo accede ese GoogleBot?
¿Cómo se llama el bot de Google? Según mi lista de bots, no entra ninguno.
Imagen

Yo, por si acaso, he activado esa opción (Puede ver temas SÍ) para observar si se produce el milagro.
Imagen


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#11

Mensaje por peibol »

Traigo novedades y creo que están bastante curiosas.

Me temo que voy a tener que dividir el problema en 3:

  1. Creación de sitemap.xml (redirecciones www y https): ya solucionado

  2. Errores en permisos de foros y roles

  3. Bug de permisos en usuarios BOT

El problema #1 está resuelto con las explicaciones dadas en los mensajes anteriores.

El problema #2 parece que se va solucionando. Revisé a fondo los permisos de los foros para los usuarios de tipo BOT y encontré varios errores. Las urls que devuelven 403 han pasado de 7000 a 4730 actualmente.

El problema #3 me parece más gordo y aún lo estoy invenstigando. Encontré estos 2 artículos donde se notifica un error similar al mio con errores 403 con visitas de BOTs. También se trata de una instalación actualizada desde versiones anteriores y parece que hay un bug detectado que no relaciona bien el userID la tabla de BOTs con la tabla de users. Pongo los enlaces (el original está en aleman):

He hecho pruebas cambiando el modo de navegación en Chrome a GoogleBot (aquí se explica cómo hacerlo https://www.searchenginejournal.com/cha ... 448/#close) y efectivamente hay urls que son visitables con el navegador y que devuelven código 200 usando https://httpstatus.io/ pero que navegando como GoogleBot dan error 403 de manera incomprensible:
Ejemplo;: https://www.foroelchecf.com/viewtopic.php?t=83561

Voy a investigar por qué y posibles soluciones. En el 2º enlace en aleman que he compartido se ofrece una solución pero no me acabo de fiar. Seguiré informando, no obstante se agradecen sugerencias. Quizás AlfredoRamos pueda orientarme ya que realizó la actualización y limpieza de la instalación de la 3.0.14 a la 3.2.7. (de manera impecable, todo sea dicho)

Al final se está quedando un hilo curioso. Quizás esta última parte se haya desviado del título original pero forma parte de un todo. Disculpas por adelantado a los moderadores.


Avatar de Usuario
AlfredoRamos
Ex Staff
Mensajes: 1235
Registrado: 14 Ene 2017, 22:18
Género:

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#12

Mensaje por AlfredoRamos »

peibol escribió: 23 Mar 2022, 10:47

En el 2º enlace en aleman que he compartido se ofrece una solución pero no me acabo de fiar.

No recomendaría probar scripts de internet, a menos que sean de fuentes de fiar.

peibol escribió: 23 Mar 2022, 10:47

Quizás AlfredoRamos pueda orientarme ya que realizó la actualización y limpieza de la instalación de la 3.0.14 a la 3.2.7

Por lo regular uso el STK, sin embargo no el no-oficial que mencionan ahí, salvo contadas excepciones.

No suelo ejecutar las herramientas que cambian o reinician roles o permisos, precisamente para evitar que algunos foros que debían ser privados, sean públicos.

Sin embargo, si gustas puedo echarle un ojo este fin de semana si me proporcionas acceso por privado.

Algunas de mis extensiones:
Imagen Imgur | :chart_with_upwards_trend: SEO Metadata | Imagen Markdown | :see_no_evil: Simple Spoiler BBCode | :shield: hCaptcha
:trophy: Checa todas mi extensiones aprobadas :trophy:

:penguin: Usuario de Arch Linux :penguin:


peibol
Observador/a
Mensajes: 19
Registrado: 21 Jul 2010, 09:38

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#13

Mensaje por peibol »

AlfredoRamos escribió: 23 Mar 2022, 20:52

Sin embargo, si gustas puedo echarle un ojo este fin de semana si me proporcionas acceso por privado.

Gracias Alfredo. Lo sigo mirando pero te acabo de pasar un MP con los datos. :clap:


Avatar de Usuario
AlfredoRamos
Ex Staff
Mensajes: 1235
Registrado: 14 Ene 2017, 22:18
Género:

Re: SEO Sitemap 1.1.1 >> Google no acepta mi xml

#14

Mensaje por AlfredoRamos »

Le he dado un vistazo y en cuanto a la configuración de phpBB, todo es correcto.

El servidor no responde igual a todos los bots, así se muestra el tema que compartes de ejemplo con el bot de Bing:

Imagen

Con otros como el bot de DuckDuckGo, el tema se muestra normal como si fuese un visitante.

Pero para la mayoría de bots, muestra esa pantalla blanca.

En el registro de errores en cPanel no veo nada relacionado con ese estado de error (403), aunque el registro de acceso sin procesar si los muestra, pero sin información detalla, obviamente.

Por SSH no pude entrar (connection refused).

Tal vez sea necesario contactar con soporte técnico, tal vez alguna regla ModSecurity esté causando problemas.

Algunas de mis extensiones:
Imagen Imgur | :chart_with_upwards_trend: SEO Metadata | Imagen Markdown | :see_no_evil: Simple Spoiler BBCode | :shield: hCaptcha
:trophy: Checa todas mi extensiones aprobadas :trophy:

:penguin: Usuario de Arch Linux :penguin:


Responder

Volver a “Soporte de Extensiones 3.3”